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总 序 


短 短 几 年 间 ， 大 数据 就 以 一 日 千里 的 发 展 速度 , 快速 实现 了 从 概念 
到 落地 ， 直 接 带 动 了 相关 产业 的 井喷 式 发 展 。 数 据 采 集 、 数 据 存储 、 数 
据 挖掘 、 数 据 分 析 等 大 数据 技术 在 越 来 越 多 的 行业 中 得 到 应 用 ， 随 之 而 
来 的 就 是 大 数据 人 才 缺 口 问题 的 凸显 。 根 据 《 人 民 日 报 》 的 报道 ， 未 来 
3~5 年 ， 中 国 需 要 180 万 数据 人 才 ， 但 目前 只 有 约 30 FA, AFO 
达到 150 万 之 多 。 

大 数据 是 一 门 实践 性 很 强 的 学 科 ， 在 其 金字 塔 形 的 人 才 资 源 模型 
中 , 数据 科学 家 居于 塔 尖 位 置 , 然而 该 领域 对 于 经 验 丰 富 的 数据 科学 家 
需求 相对 有 限 ， 反 而 是 对 大 数据 底层 设计 、 数 据 清洗 、 数 据 挖掘 及 大 数 
据 安 全 等 相关 人 才 的 需求 急剧 上 升 ， 可 以 说 占据 了 大 数据 人 才 需 求 的 
80% 以 上 。 比 如 数据 清洗 、 数 据 挖 掘 等 相关 职位 ， 需 要 源源 不 断 的 大 量 
专业 人 才 。 

迫切 的 人 才 需 求 直 接 催 热 了 相应 的 大 数据 应 用 专业 。2018 年 1 月 
18 日 ， 教 育 部 公布 了 “大 数据 技术 与 应 用 ”专业 备案 和 审批 结果 ， 已 
有 270 所 高 职 院 校 申报 开设 “大 数据 技术 与 应 用 ”专业 ， 其 中 共有 208 
所 职业 院 校 获 批 了 “大 数据 技术 与 应 用 ”专业 。 随 着 大 数据 的 深入 发 展 ， 
未 来 几 年 申请 与 获 批 该 专业 的 职业 院 校 数量 仍 将 持续 走高 。 同 时 ， 对 于 
国家 教育 部 正式 设立 的 “数据 科学 与 大 数据 技术 ”本 科 新 专业 ， 在 已 获 
批 的 35 所 大 学 之 外 ，2017 年 申请 院 校 也 高 达 263 所 。 

即使 如 此 , 就 目前 而 言 , 在 大 数据 人 才 培 养 和 大 数据 课程 建设 方面 ， 
大 部 分 专科 院 校 仍然 处 于 起 步 阶 段 ， 需 要 探索 的 问题 还 有 很 多 。 首 先 ， 
大 数据 是 个 新 生 事 物 ， 懂 大 数据 的 老师 少 之 又 少 ， 院 校 缺 “人 六 其 次 ， 
院 校 尚未 形成 完善 的 大 数据 人 才 培 养 和 课程 体系 , 缺乏 “机 制 ” 再 次 ， 
大 数据 实验 需要 为 每 位 学 生 提供 集群 计算 机 ， 院 校 缺 “ 机 器 ”; 最 后 ， 
院 校 没有 海量 数据 ， 开 展 大 数据 教学 实验 工作 缺少 “原材料 ”。 

对 于 注重 实 操 的 大 数据 技术 与 应 用 专业 专科 建设 而 言 , 需要 重点 面 
向 网 络 疏 虫 、 大 数据 分 析 、 大 数据 开发 、 大 数据 可 视 化 、 大 数据 运 维 工 
程 师 的 工作 岗位 ， 帮 助 学 生 掌握 大 数据 技术 与 应 用 专业 必 备 知识 ,使 其 
具备 大 数据 采集 、 存 储 、 清 洗 、 分 析 、 开 发 及 系统 维护 的 专业 能 力 和 技 
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EE ， 成 为 能 够 服务 区 域 经 济 的 发 展 型 、 创 新 型 或 复合 型 技术 技能 人 才 。 
无 论 是 缺 “ 人 ” 缺 “ 机 制 ” 缺 “ 机 器 ”， 还 是 缺少 “原材料 ” 最终 都 
难以 培养 出 合格 的 大 数据 人 才 。 

其 实 , 早 在 网 格 计算 和 云 计算 兴起 时 , 我 国 科 技工 作者 就 曾 遇 到 过 
类 似 的 挑战 , 我 有 幸 参 与 了 这 些 问 题 的 解决 过 程 。 为 了 解决 网 格 计 算 问 
题 ， 我 在 清华 大 学 读 博 期 间 ， 于 2001 年 创办 了 中 国 网 格 信息 中 转 站 网 
站 ,每 天 花 几 个 小 时 收集 和 分 享有 价值 的 资料 给 学 术 界 ， 此 后 我 也 多 次 
筹办 和 主持 全 国 性 的 网 格 计算 学 术 会 议 ， 进 行 信息 传递 与 知识 分 享 。 
2002 年 ， 我 与 其 他 专家 合作 的 《网 格 计算 》 教 材 正式 面世 。 

2008 年 ， 当 云 计 算 开 始 萌芽 之 时 ， 我 创办 了 中 国 云 计 算 网 站 
(chinacloud.cn) (在 各 大 搜索 引擎 “ 云 计算 ”关键 词 中 排名 第 一 ), 2010 
年 出 版 了 《 云 计 算 (第 1 版 )》”、2011 年 出 版 了 《 云 计算 (第 2 版 )》、 
2015 年 出 版 了 《 云 计算 (第 3 版 )》， 每 一 版 都 花费 了 大 量 成 本 制作 并 
免费 分 享 对 应 的 几 十 个 教学 PPT。 目 前 ， 这 些 PPT 的 下 载 总 量 达 到 了 
几 百 万 次 之 多 。 同 时 ,《 云 计算 》 一 书 也 成 为 国内 高 校 的 优秀 教材 ， 在 
中 国 知 网 公布 的 高 被 引 图 书 名 单 中 ,《 云 计算 》 在 自动 化 和 计算 机 领域 
排名 全 国 第 一 。 

除了 资料 分 享 ， 在 2010 年 ， 我 们 在 南京 组 织 了 全 国 高 校 云 计算 师 
资 培训 班 ， 培 养 了 国内 第 一 批 云 计算 老师 ， 并 通过 与 华为 、 中 兴 、360 
等 知名 企业 合作 ,输出 云 计算 技术 ,培养 云 计 算 研发 人 才 。 这 些 工作 获 
得 了 大 家 的 认可 与 好 评 ， 此 后 我 接连 担任 了 工信部 云 计算 研究 中 心 专 
家 、 中 国 云 计算 专家 委员 会 云 存 储 组 组 长 、 中 国 大 数据 应 用 联盟 人 工 智 
能 专家 委员 会 主任 等 。 

近 几 年 , 面 对 日 益 突出 的 大 数据 发 展 难 题 , 我 们 也 正在 尝试 使 用 此 
前 类 似 的 办 法 去 应 对 这 些 挑战 .为 了 解决 大 数据 技术 资料 缺乏 和 交流 不 
够 通 透 的 问题 , 我 们 于 2013 年 创办 了 中 国 大 数据 网 站 (thebigdata.cn)， 
投入 大 量 的 人 力 进 行 日 常 维护 , 该 网 站 目前 已 经 在 各 大 搜索 引擎 的 “大 
数据 ”关键 词 排 名 中 位 居 第 一 ; 为 了 解决 大 数据 师资 荐 乏 的 问题 ， 我 们 
面向 全 国 院 校 陆续 举办 多 期 大 数据 师资 培训 班 ， 致 力 于 解决 “ 缺 人 ”的 
问题 。 

2016 年 年 末 至 今 ， 我 们 已 在 南京 多 次 举办 全 国 高 校 /高 职 /中 职 大 数 
据 免费 培训 班 ， 基 于 《大 数据 》《 大 数据 实验 手册 》 以 及 云 创 大 数据 提供 
的 大 数据 实验 平台 ， 帮 助 到 场 老 师 们 跑 通 了 Hadoop, Spark 等 多 个 大 数 
据 实验 ， 使 他 们 跨 过 了 “从 理论 到 实践 ， 从 知道 到 用 过 ”的 门槛 。2017 


年 5 月 ,我 们 还 举办 了 全 国 千 所 高 校 大 数据 师资 免费 讲习 班 ， 盛 况 空前 。 

其 中 , 为 了 解决 大 数据 实验 难 问 题 而 开发 的 大 数据 实验 平台 , 正在 
为 越 来 越 多 的 高 校 教学 科研 带 来 方便 ， 帮 助 解决 “ 缺 机 器 ”与 “ 缺 原 材 
料 ” 的 问题 。2016 年 ， 我 带领 云 创 大 数据 (www.cstor.cn， 股 票 代码 : 
835305) 的 科研 人 员 ， 应 用 Docker 容器 技术 ， 成 功 开发 了 BDRack 大 
数据 实验 一 体 机 ， 它 打破 了 虚拟 化 技术 的 性 能 瓶颈 ， 可 以 为 每 一 位 参加 
实验 的 人 员 虚 拟 出 Hadoop 集群 、Spark 集群 、Storm 集群 等 ， 自 带 实验 
所 需 数据 ， 并 准备 了 详细 的 实验 手册 (包含 42 个 大 数据 实验 )、PPT 和 
实验 过 程 视频 ， 可 以 开展 大 数据 管理 、 大 数据 挖掘 等 各 类 实验 ， 并 可 进 
行 精确 营销 、 信 用 分 析 等 多 种 实战 演练 。 

目前 ， 大 数据 实验 平台 已 经 在 郑州 大 学 、 成 都 理工 大 学 、 金 陵 科 技 学 
院 、 天 津 农学 院 、 西 京 学 院 、 郑 州 升 达 经 贸 管 理学 院 、 信 阳 师 范 学 院 、 镇 
江 高 等 职业 技术 学 校 等 多 所 院 校 成 功 应 用 ， 并 广 受 校方 好 评 。 同 时 ， 该 平 
台 以 云 服务 的 方式 在 线 提供 〈 大 数据 实验 平台 : https://bd.cstor.cn)， 实 
验 更 是 增 至 85 个 ， 师 生 通 过 自学 ， 可 用 一 个 月 时 间 成 为 大 数据 实验 动 
手 的 高 手 。 此 外 ， 面 对 席卷 而 来 的 人 工 智能 浪潮 ， 我 们 团队 推出 的 
AIRack 人 工 智 能 实验 平台 、DeepRack 深度 学 习 一 体 机 以 及 dServer 人 
工 智能 服务 器 等 系列 应 用 , 一 举 解 决 了 人 工 智能 实验 环境 搭建 困难 、 缺 
乏 实 验 指导 与 实验 数据 等 问题 ,目前 已 经 在 清华 大 学 、 南 京 大 学 、 南 京 
农业 大 学 、 西 安 科技 大 学 等 高 校 投入 使 用 。 

在 大 数据 教学 中 ,本 科 院 校 的 实践 教学 应 更 加 系统 性 , 偏向 新 技术 
的 应 用 , 且 对 工程 实践 能 力 要 求 更 高 。 而 高 职高 专 院 校 及 应 用 型 本 科 则 
更 偏向 于 技术 和 技能 训练 ， 理 论 以 够 用 为 主 ， 学 生 将 主要 从 事 数 据 清 洗 
和 运 维 方 面 的 工作 。 基 于 此 ， 我们 联合 多 家 高 职 院 校 专家 准备 了 《 云 计 
算 导 论 》《 大 数据 导论 》《 数 据 挖掘 基础 》《R 语言 《数据 清洗 》《 大 数据 
系统 运 维 》《 大 数据 实践 》 系 列 教材 ， 帮 助 解决 “机 制 ” 欠 缺 的 问题 。 

此 外 ， 我 们 也 将 继续 在 中 国 大 数据 〈thebigdatacn ) 和 中 国 云 计算 
(chinacloud.cn) 等 网 站 免费 提供 配套 PPT 和 其 他 资料 。 同 时 ， 持 续 开放 大 
数据 实验 平台 (https:/bd.cstorcn)、 免 费 的 物 联网 大 数据 托管 平台 万 物 云 
(wanwuyun.com) 和 环境 大 数据 免费 分 享 平台 环境 云 (envicloud.cn)， 使 
资源 与 数据 随手 可 得 ， 让 大 数据 学 习 变 得 更 加 轻松 。 

在 此 ， 特 别 感谢 我 的 硕士 导师 谢 希 仁 教授 和 博士 导师 李 三 立 院士 。 
谢 希 仁 教 授 所 著 的 《计算 机 网 络 》 已 经 更 新 到 第 7 版 ， 与 时 俱 进 日 至 完 
美 ， 时 时 提醒 学 生 要 以 这 样 的 标准 来 写 书 。 李 三 立 院士 是 留 苏 博士 ， 为 


— VI 大 数据 实践 一 


我 国 计 算 机 事业 做 出 了 杰出 贡献 ， 曾 任国 家 攀登 计划 项 目 首席 科学 家 。 
他 的 严谨 治学 带 出 了 一 大 批 杰 出 的 学 生 。 

本 从 书 是 集体 智慧 的 结晶 ， 在 此 谨 向 付出 辛勤 劳动 的 各 位 作者 致敬 ! 
书 中 难免 会 有 不 当 之 处 ,请 读者 不 音 赐教 。 我 的 邮箱 : gloud@126.com， 微 
信 公 众 号 : 刘 鹏 看 未 来 (lpoutlook)。 


刘 m 
于 南京 大 数据 研究 院 
2018 年 5 月 
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近年 来 信息 技术 迅速 发 展 ， 互 联网 、 移 动 、 云 计算 、 物 联网 等 技术 
不 断 渗透 到 人 们 的 生活 和 各 行业 中 , 影响 和 改变 着 传统 的 生活 方式 与 工 
作 方式 。 普 及 的 移动 设备 、 随 处 部 署 的 物 联 网 设备 、 互 联网 后 台 服 务 、 
云 计算 中 心 时 刻 都 在 产生 大 量 的 数据 ， 由 此 产生 了 数据 的 爆炸 式 增长 。 
企业 现在 要 处 理 的 数据 无 论 是 从 规模 还 是 从 产生 速度 上 都 远 远 超过 了 
以 前 ,传统 的 数据 处 理 技术 已 无 法 适应 当前 需求 。 大 数据 处 理 技术 因此 
诞生 并 迅速 发 展 ， 一 方面 满足 了 传统 的 数据 处 理 需 求 ， 另 一 方面 利用 大 
数据 技术 挖掘 出 的 有 价值 信息 促进 了 信息 技术 的 应 用 和 发 展 。 

大 数据 技术 最 初 发 展 于 互联 网 搜索 引擎 公司 ， 如 Google. YAHOO! 
等 , 这 些 公司 要 检索 海量 的 互联 网 数据 , 对 大 数据 处 理 有 着 实际 的 需求 。 
Google 公司 于 2003 年 发 表 了 分 布 式 文件 系统 论文 ， 于 2004 年 发 表 了 
MapReduce 数据 处 理 框架 论文 ， 把 Google 的 大 数据 处 理 方 法 和 系统 公 
开 了 。 随 后 基于 这 两 篇 论文 的 开源 项 目 Hadoop 诞生 了 ， 并 在 2006 年 
发 布 了 0.1.0 版 本 。YAHOO! 公 司 最 初 尝试 了 Hadoop, fE 2006 年 部 署 
了 300 台 机 器 的 集群 ， 并 且 逐 步 扩 大 集群 规模 。 由 于 使 用 Hadoop 处 理 
大 数据 非常 有 效 ， 并 且 Hadoop 是 开源 软件 ， 可 以 使 用 普通 的 机 器 搭建 
集群 ， 不 少 公司 开始 使 用 Hadoop. JÁ 2007 年 的 3 家 公司 到 2008 年 的 
20 家 公司 ， 使 用 Hadoop 的 公司 越 来 越 多 ， 包 括 YAHOO! Facebook, 
腾讯 、 阿 里 巴巴 等 。 其 中 不 少 公司 还 参与 到 Hadoop 开源 项 目 中 ， 截 至 
2011 #E, Facebook. LinkedIn. eBay, IBM 集体 贡献 了 20 万 行 代码 。 
大 公司 使 用 并 参与 改进 Hadoop, 使 得 Hadoop 项 目 迅速 发 展 ， 功 能 逐渐 
丰富 ， 性 能 不 断 提高 ， 稳 定性 得 到 了 增强 ， 逐 渐 发 展 为 大 数据 处 理 的 主 
流 工具 和 框架 之 一 。 

在 Hadoop 的 应 用 中 人 们 发 现 , 基于 MapReduce 的 数据 处 理 框 架 存 
在 着 性 能 瓶颈 ， 不 适合 响应 性 能 要 求 高 的 数据 处 理 。 而 Hadoop 生态 圈 
中 的 另 一 个 分 布 式 计算 框架 Spark 能 够 较 好 地 解决 这 个 问题 。Spark 诞 
生 于 加 州 大 学 伯克利 分 校 的 AMP 实验 室 , 最 初 的 目标 是 进行 迭代 计算 ， 
适用 于 机 器 学 习 等 领域 (当时 Hadoop 数据 处 理 框架 的 目标 是 进行 数据 
批 处 理 )， 后 来 发 展 为 既 适 合 数据 批 处 理 又 适合 迭代 计算 的 并 行 处 理 框 
架 。Spark 的 发 展 非常 迅速 ，2010 年 开源 ; 2013 年 贡献 给 Apache 基 
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金 会 ; 2014 年 成 为 Apache 基金 会 顶级 项 目 , 且 项 目 活 跃 , 版 本 更 新 快 。 
Spark 和 Hadoop 框架 类 似 , 都 使 用 普通 机 器 搭建 集群 ,并 且 兼 容 Hadoop 
的 分 布 式 文 件 系 统 和 HBase 数据 库 。 不 同 的 是 ，Spark 充分 利用 了 内 存 
资源 ,并 且 提 供 了 比 MapReduce 更 加 灵活 和 丰富 的 计算 框架 。 使 用 Spark 
处 理 大 数据 ， 响 应 时 间 更 快 ， 编程 语言 丰富 (支持 Java、Scala、Python、 
R 语言 )， 数 据 处 理 效率 高 。 随 着 Spark 的 不 断 发 展 ，Spark 自己 也 形成 
了 庞大 的 生态 圈 ， 包 括 数 据 存储 、 计 算 框 架 、 结 构 化 数据 处 理 、 机 器 学 
习 、 流 式 处 理 等 重要 模块 ， 成 为 主流 的 大 数据 处 理工 具 和 框架 之 一 。 
Spark 并 非 是 Hadoop 的 替代 ， 而 是 与 Hadoop 取长补短 ， 相 互 兼 容 ， 各 
自 适 用 于 不 同 需 求 的 数据 处 理 和 计算 。 

本 书 介 绍 了 目前 大 数据 处 理 的 两 套 主 流 框架 Hadoop 和 Spark， 包 
括 Hadoop 分 布 式 文件 系统 、MapReduce 计算 框架 、HBase 数据 库 、 Hive 
结构 化 数据 处 理 模块 、Spark 计算 框架 和 Spark SQL 结构 化 数据 处 理 模 
块 。 这 些 模块 都 是 生态 圈 中 重要 的 基本 模块 ， 模 块 间 存在 着 依赖 关系 ， 
如 Hive 中 使 用 到 了 MapReduce 计算 框架 、Spark 计算 框架 中 使 用 到 了 
Hadoop 文件 系统 等 。 书 中 按照 顺序 由 浅 入 深 地 介绍 了 各 模块 的 系统 原 
理 、 部 署 方 法 、 配 置 方法 、 基 本 操作 等 内 容 。 本 书 侧重 于 实践 操作 ， 通 
过 实践 学 习 大 数据 技术 , 在 使 用 大 数据 工具 的 过 程 中 使 读者 逐步 了 解 大 
数据 处 理 的 基本 概念 、 方 法 和 步骤 ， 强 化 实际 操作 能 力 ， 为 进一步 学 习 
其 他 大 数据 技术 打下 良好 的 基础 。 

本 书 第 1 章 和 第 2 章 由 廖 若 飞 编写 , 第 3 章 由 表 晓 东 编 写 , 第 4 章 
由 张 爱 民 编写 , 第 5 章 和 第 6 章 由 黄 必 栋 编 写 。 本 书 编写 过 程 中 得 到 了 
刘 鹏 教授 和 清华 大 学 出 版 社 王 莉 、 徐 瑞 鸿 编辑 的 大 力 支 持 和 悉心 指导 ， 
在 此 深 表 感谢 ! 虽然 在 完稿 前 我 们 反复 审查 校对 ， 力 求 做 到 内 容 清 晰 无 
误 、 便 于 学 习 理 解 ， 但 朴 漏 和 不 完善 之 处 仍 在 所 难免 ， 奶 请 读者 批评 指 
正 ， 不 音 赐教 。 
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随 着 社交 网 络 、 电 子 商 务 、 移动 互联 网 等 行业 的 发 展 , 以 及 云 计 算 、 
物 联 网 等 技术 的 兴起 , 数据 正 以 前 所 未 有 的 速度 不 断 地 增长 和 累积 ,传统 
关系 数据 库 的 存储 能 力 、 处 理 能 力 、 处 理 速度 、 处 理 效 率 受 到 极 大 的 挑战 ， 
大 数据 时 代 已 经 来 临 。 工 业界 、 学 术 界 和 政府 机 构 都 已 经 开始 密切 关注 大 
数据 领域 ， 并 对 其 产生 浓厚 的 兴趣 。 市 面 上 关于 大 数据 库 的 开源 和 商用 系 
统 已 经 很 多 ; 百度 学 术 上 近 三 年 来 关于 大 数据 的 研究 文章 有 12 万 余 篇 ; 
我 国 在 “十 三 五 ”规划 (2016—2020 年 ) 中 提出 :“ 实 施 国家 大 数据 战略 ， 
推进 数据 资源 开放 共享 ” 作为 “十 三 五 ”十 四 项 大 战略 ”之 一 的 “国家 
大 数据 战略 ” 我 国 《 大 数据 产业 “十 三 五 ”发 展 规划 》 也 正在 紧张 制定 
中 。“ 十 三 五 ”期 间 ， 大 数据 领域 必 将 迎 来 建设 高 峰 和 投资 良机 。 从 全 球 
范围 看 ， 大 数据 主要 应 用 在 教育 、 交 通 、 消 费 、 电 力 、 能 源 、 大 健康 以 及 
金融 等 七 大 重点 领域 , 大 数据 的 应 用 价值 预计 在 32 200 亿 一 53 900 亿美 元 。 

本 章 先 简要 介绍 了 传统 关系 型 数据 库 的 概念 和 关系 型 数据 库 的 优 
点 ,继而 给 出 了 大 数据 库 的 定义 , 分析 了 大 数据 库 的 类 型 ， 并 结合 具体 
实例 介绍 了 大 数据 库 的 应 用 场景 。 通过 本 章 的 学 习 , 读者 可 以 对 大 数据 
库 有 基本 的 认识 。 


11 从 数据 库 到 大 数据 库 
1.1.1 关系 型 数据 库 
传统 数据 库 一 般 是 指 关 系 型 数据 库 , 它 借助 于 集合 代数 等 数学 概念 


和 方法 来 处 理 数 据 库 中 的 数据 。 现实 世界 中 的 各 种 实体 以 及 实体 之 间 的 
各 种 联系 均 用 关系 模型 来 表示 。 现 如 今 业 界 虽 然 对 此 模型 有 一 些 批评 意 
见 ， 但 它 还 是 数据 存储 的 传统 标准 。 标 准 数据 查询 语言 SQL 就 是 一 种 
基于 关系 数据 库 的 语言 , 这 种 语言 执行 对 应 关系 型 数据 库 中 数据 的 检索 
和 操作 。 主 流 的 关系 型 数据 库 有 Oracle, SQL Server. MySQL, DB2. 
SyBase 等 。 

关系 型 数据 库 的 优点 : 

(1) 容易 理解 。 关 系 型 数据 库 使 用 实体 来 表示 现实 世界 中 的 事物 ， 
使 用 属性 表示 实体 的 特征 , 使 用 二 维 表 来 描述 逻辑 世界 的 概念 ， 相 对 于 
网 状 、 层 次 等 其 他 模型 更 容易 理解 。 

(2) 使 用 方便 。 基 本 通用 的 结构 化 查询 语言 (SQL) 使 得 关系 型 
数据 库 的 操作 十 分 方便 。 

(3) 易于 维护 。 完 整 性 (实体 完整 性 、 参 照 完 整 性 和 用 户 定义 的 
完整 性 ) 支持 大 大 降低 了 数据 元 余 和 数据 不 一 致 的 概率 。 

关系 型 数据 库存 在 的 问题 : 

(1) 难以 满足 高 并 发 读 写 需求 。 网 站 的 用 户 多 ， 多 用 户 并 发 操作 
非常 频繁 , 往往 达到 每 秒 上 万 次 读 写 请 求 , 对 于 传统 关系 型 数据 库 来 说 ， 
磁盘 IO 是 一 个 很 大 的 瓶颈 。 

(2) 难以 满足 海量 数据 的 高 效率 读 写 需 求 。 网 站 每 天 产生 的 数据 
量 是 巨大 的 , 对 于 关系 型 数据 库 来 说 , 在 多 张 包含 海量 数据 的 表 中 关联 
查询 ， 效 率 非常 低 。 

G) 扩展 性 差 。 在 大 型 应 用 项 目 中 ， 数 据 库 是 最 难 进行 横向 扩展 
的 ， 当 一 个 应 用 系统 的 用 户 量 和 访问 量 与 日 俱 增 的 时 候 ， 数 据 库 很 难 通 
过 简单 增加 硬件 和 服务 节点 来 扩展 性 能 和 提高 负载 能 力 。 对 于 很 多 需要 
提供 24 小 时 不 间断 服务 的 网 站 来 说 ， 对 数据 库 系 统 进行 升级 和 扩展 是 
非常 痛苦 的 事情 ， 往 往 需要 停机 维护 和 数据 迁移 。 


1.1.2 大 数据 库 


传统 处 理 海量 数据 (数据 仓库 ) 的 思路 是 采用 高 性 能 计算 机 ， 比 如 
小 型 机 、 大 型 机 。 如 果 一 台 服 务 器 不 够 用 ， 就 把 几 台 服务 器 连 起 来 ， 部 
署 分 布 式 数 据 库 ， 不 过 这 种 扩展 性 也 只 能 达到 几 台 一 十 几 台 的 级 别 ， 扩 
展 性 差 ， 成 本 高 。 大 数据 系统 放弃 磁盘 阵列 而 使 用 本 地 硬盘 作为 存储 ， 
通过 增加 文件 副本 的 方式 解决 可 靠 性 的 问题 ， 存 储 成 本 大 大 降低 。 分 布 
式 计算 框架 的 支持 , 将 计算 任务 分 担 到 普通 的 服务 器 上 。 从 软件 层面 来 
解决 很 多 硬件 问题 ， 比 如 单 块 硬盘 故障 不 影响 整个 集群 的 使 用 、 使 用 普 
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通 服务 器 搭建 集群 等 。 这 些 新 的 理念 极 大 地 推动 了 大 数据 行业 的 发 展 。 

Hadoop 是 大 数据 系统 的 典型 代表 。Hadoop 底层 的 分 布 式 文件 系统 
具有 高 拓展 性 , 通过 一 定数 据 元 余 策 略 保证 数据 不 丢失 并 且 能 提高 计算 
效率 ,还 可 以 存储 各 种 格式 的 数据 。 同 时 其 还 支持 多 种 计算 框架 ， 既 有 
离线 计算 , 又 有 在 线 实时 计算 , 还 有 内 存 计算 。Hadoop 生态 圈 中 的 Hive 
应 用 的 主要 场景 就 是 离线 分 析 ，HBase 是 实时 计算 的 代表 ，Spark 则 是 
内 存 大 数据 计算 框架 。 

大 数据 是 指 无 法 在 一 定时 间 内 用 常规 软件 工具 对 其 内 容 进 行 分 析 
处 理 的 数据 集合 。 大 数据 技术 是 指 从 各 种 各 样 类 型 的 数据 中 , 快速 获得 
有 价值 信息 的 能 力 。 适 用 于 大 数据 的 技术 ,包括 大 规模 并 行 处 理 数据 库 、 
数据 挖掘 、 分 布 式 文件 系统 、 分 布 式 数据 库 、 云 计算 平台 、 互 联网 和 可 
扩展 的 存储 系统 等 。 本 书 中 把 以 NoSQL (Not Only SQL ) 为 代表 的 用 
于 存储 、 管 理 、 分 析 海 量 数据 的 系统 称 为 大 数据 库 ， 把 大 数据 库 及 其 依 
赖 的 软件 环境 称 为 大 数据 库 系 统 。 

具体 来 说 ， 大 数据 具有 以 下 四 个 基本 特征 : 

(1) 数据 体 量 巨大 。 一 般 指 TB 以 及 PB 级 的 数据 。 

(2) 数据 类 型 多 样 。 比 如 图 片 、 视 频 、 音 频 、 地 理 位 置信 息 等 。 

(3) 处 理 速 度 快 。 

(4) 价值 密度 低 。 

NoSQL 是 遵循 CAP 理论 和 BASE 原则 的 典型 。 CAP 理论 可 简单 描 
述 为 :一 个 分 布 式 系 统 不 能 同时 满足 一 致 性 (Consistency)、 可 用 性 
(Availability) 和 分 区 容错 性 (Partition Tolerance) 这 三 个 需求 ， 最 多 
只 能 同时 满足 两 个 。 因 此 ， 大 部 分 key-value 数据 库 系 统 都 会 根据 自己 
的 设计 目的 进行 相应 的 选择 。BASE 原则 是 指 Basically Available (基本 
可 用 )、Soft State( 软 状态 ) 和 Eventually Consistent (最终 一 致 性 )。 基 
本 可 用 是 指 分 布 式 系统 在 出 现 不 可 预知 故障 的 时 候 , 允许 损失 部 分 可 用 
性 ; 软 状态 和 硬 状 态 相 对 ， 是 指 允 许 系统 中 的 数据 存在 中 间 状 态 ， 并 认 
为 该 中 间 状 态 的 存在 不 会 影响 系统 的 整体 可 用 性 , 即 允 许 系统 在 不 同 节 
点 的 数据 副本 之 间 进 行 数据 同步 的 过 程 存在 延 时 ; 最 终 一 致 性 强调 的 是 
系统 中 所 有 的 数据 副本 , 在 经 过 一 段 时 间 的 同步 后 , 最 终 能 够 达到 一 个 
一 致 的 状态 。 

在 性 能 上 ，NoSQL 数据 存储 系统 都 具有 传统 关系 数据 库 所 不 能 满足 
的 特性 ， 是 面向 应 用 需求 而 提出 的 各 具 特 色 的 产品 。 在 设计 上 ， 它 们 都 关 
注 对 数据 高 并 发 地 读 写 和 对 海量 数据 的 存储 ， 并 具有 很 好 的 灵活 性 和 性 
能 。 它 们 都 支持 自由 的 模式 定义 方式 ， 可 实现 海量 数据 的 快速 访问 。 灵 
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活 的 分 布 式 体系 结构 支持 横向 可 伸缩 性 和 可 用 性 , 且 对 硬件 的 需求 较 低 。 

传统 关系 数据 库 的 ACID 原则 和 大 数据 库 的 BASE 原则 代表 了 两 种 
截然 相反 的 设计 哲学 。ACID 原则 注重 一 致 性 ， 这 是 数据 库 的 传统 设计 
思路 。20 世纪 90 年 代 末 期 提出 的 BASE 原则 对 一 致 性 和 可 用 性 进行 平 
衡 ， 是 为 了 满足 应 用 达到 高 可 用 性 的 设计 思路 ,并 且 把 主要 需求 和 次 要 
需求 进行 了 取舍 。 

大 数据 涉及 很 多 其 他 技术 ， 比 如 网 络 技术 、 软 件 技术 、 数 据 库 技 术 
等 , 与 之 关系 最 密切 的 是 云 计 算 。 云 计算 是 大 数据 的 基础 平台 与 支撑 技 
术 。 如 果 将 各 种 大 数据 的 应 用 比 作 一 辆 辆 “汽车 ”， 支撑 起 这 些 “ 汽 车 ” 
运行 的 “高 速 公路 ”就 是 云 计算 。 正 是 云 计 算 技 术 在 虚拟 化 、 数 据 存 储 、 
管理 与 分 析 等 方面 的 支撑 使 得 大 数据 有 了 用 武之 地 。 


1.2 大 数据 库 的 类 型 


一 般 来 讲 ， 按 数据 存储 方式 和 处 理 数据 的 类 型 不 同 ， 将 大 数据 库 分 
X key-value 存储 数据 库 、 文档 数据 库 和 图 数据 库 三 大 类 , 如 表 1-1 所 示 。 


表 1-1 大 数据 库 类 型 
















大 类 型 | 小 类 型 | 代表 产品 | r 家 
[ae | 


Apache Software Foundation 


key-column Apache Software Foundation 
Voldemort Amazon 


ee 55 — Redis Labs 
存储 数据 库 
E= mami ire Pivotal Inc 


| MongoDB | goDB MongoDB Inc 


key-document > q 
Apache Software Foundation 
文档 数据 库 PETA goDB MongoDB Inc. À 
| couchpB | Apache Software Foundation 
AllegroGraph | Franz Inc. 

(1) key-value 存储 数据 库 是 指数 据 分 为 key 和 value, 用 key 定位 
value， 简 化 了 数据 模型 ， 实 现 了 数据 的 快速 存储 和 读 取 ， 一 般 不 关心 
value 的 类 型 ， 它 可 以 是 字符 串 或 者 二 进 制 数据 ， 因 此 key-value 存储 类 
型 可 以 存储 丰富 的 数据 类 型 。 

(2) 文档 数据 库 类 型 与 key-value 类 型 类 似 , 但 value 是 结构 化 的 ， 
一 般 使 用 类 Json 的 格式 ， 可 以 将 文档 数据 库 看 作 key-value 的 升级 版 ， 
它们 都 是 类 HashTable 的 数据 结构 。 


key-value 








(3) 图 数据 库 是 以 数据 结构 中 的 图 (Graph) 的 概念 进行 建 模 ， 数 
据 储 存在 “图 ”中 。“ 图 ”中 的 节点 表示 实体 ， 边 表示 实体 的 关系 。 
节点 和 边 都 可 以 有 自己 的 属性 。 不 同 实体 通过 各 种 不 同 的 关系 关联 起 
K, 形成 复杂 的 对 象 图 。 图 数据 库 提供 了 在 对 象 图 上 进行 查找 和 遍历 的 
功能 。 
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随 着 信息 化 水 平 的 提高 和 移动 应 用 的 普及 , 很 多 行业 都 积累 了 海量 
的 数据 。 比 如 : 微 信 与 QQ 的 社交 行为 数据 、 移 动 设备 很 多 传感器 收集 
的 大 量 用 户 行为 数据 (比如 行走 记录 、App 的 使 用 次 数 等 )、 电 商 崛起 
产生 的 大 量 网 上 交易 数据 、 全 国 各 地 实时 空气 质量 监测 数据 等 。 海量 数 
据 的 产生 与 收集 为 大 数据 库 的 应 用 提供 了 基础 。 

从 上 面 的 例子 中 可 以 看 出 , 大 数据 在 很 多 行业 都 有 应 用 的 基础 ， 从 
技术 层面 讲 ， 以 下 三 种 应 用 场景 都 可 以 看 到 大 数据 库 的 身影 : @ 离线 
分 析 ; O 实时 事务 处 理 ; © 高 并 发 、 低 延迟 、 实 时 事务 应 用 。 

场景 一 : 离线 分 析 

作业 帮 是 百度 公司 推出 的 一 个 面向 全 国 中 小 学 生 的 移动 学 习 平台 。 
官方 资料 显示 ， 截 止 到 2016 年 6 月 ， 作 业 帮 用 户 量 突破 1.3 亿 ， 占 据 
拍照 答题 市 场 60% 的 份额 。 面 对 海量 中 小 学 生 的 点 击 浏览 ,作业 帮 每 天 
产生 的 应 用 数据 和 行为 数据 在 TB 级 别 。 如 何 做 到 海量 数据 稳定 存储 、 
做 好 数据 统计 分 析 、 方 便 快 捷 地 查询 以 及 降低 高 昂 运 维 成 本 成 了 作业 帮 
最 为 头疼 的 问题 。 作 业 帮 的 解决 方案 如 图 1-1 所 示 。 


线 上 业务 系统 ! 离线 数据 平台 


党 洲 网 下 次 市 





图 1-1 作业 帮 整 体 解决 方案 
D 线 上 业务 系统 用 云 主机 解决 负载 均衡 及 海量 存储 问题 。 
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(2) 将 线 上 业务 系统 与 离线 数据 平台 分 离 。 线 上 业务 系统 实时 为 
用 户 提供 服务 ， 离 线 数据 平台 提供 报表 分 析 等 功能 。 

(3) 日 志 服务 BLS 收集 运行 数据 ， 存 储 到 Bos 中 ， 然 后 使 用 百度 
MapReduce 对 数据 筛选 、 清 理 、 存 储 , 最 后 接 入 报表 系统 。 百 度 MapReduce 
是 Hadoop/Spark 集群 。 

景 二 : 实时 事务 处 理 

每 天 有 超过 8 亿 用 户 使 用 微 信 、QQ、QQ 空间 等 众多 腾讯 产品 及 第 
三 方 应 用 ， 他 们 分 享 感 兴趣 的 内 容 ， 浏 览 商 业 信 息 。 腾 讯 广 点 通 承接 了 
每 天 200 多 亿 的 广告 流量 ， 这 对 算法 模型 训练 数据 的 准确 性 、 实 时 性 和 完 
整 性 都 提出 了 很 高 的 要 求 。 广 点 通 利用 HBase + Storm 构建 了 广告 日 志 实 
时 处 理 平 台 ， 解 决 了 实时 数据 回流 和 统计 的 问题 。 腾 讯 广 点 通 广告 业务 
数据 流 图 如 图 1-2 所 示 , 系统 架构 如 图 1-3 所 示 , 负载 特点 如 图 1-4 所 示 。 
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图 1-3 广 点 通 系统 架构 
















































































访问 特性 : 

写 HBase: 每 天 300 亿 +; 

读 HBase: 每 天 200 亿 +， 而 且 都 是 随机 读 ! 
但 是 : 

一 只 有 100 多 亿 读 操作 是 预期 读 到 数据 的 ; 
一 大 部 分 数据 从 写 入 到 读 取 的 时 间 延 迟 很 小 。 
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场景 三 : 高 并 发 、 低 延迟 、 实 时 事务 应 用 

12306 互联 网 售票 系统 在 2011 年 下 半年 开始 上 线 使 用 。 系 统一 上 
线 ， 它 就 成 为 “全 球 最 忙碌 的 网 站 ”。 在 应 对 高 并 发 访问 处 理 方面 ， 曾 
备 受 网 民 诉 病 。 该 网 站 业务 的 复杂 度 远 超 传统 电 商 ， 非 一 般 解 决 方案 
可 以 解决 。 官 方 数据 显示 ，12306 平均 一 天 的 PV (Page Views) 值 在 
2500 万 一 3000 万 ,2015 年 春运 高 峰 日 的 PV 值 是 297 亿 , 流量 增加 1000 
倍 。 这 样 海量 的 请 求 ， 假 如 不 能 在 短 时 间 内 动态 调整 网 络 带 宽 或 增加 计 
算 资 源 ， 就 会 造成 网 络 阻塞 ， 甚 至 使 整个 系统 不 稳定 。12306 负载 情况 
如 表 1-2 所 示 。 


表 1-2 12306 负载 





E 份 | 尖峰 日 PV 值 | 放 票 次 数 | 网 络 带宽 | 订单 处 理 ( 张 / 秒 ) 
2012 4 次 1.5Gb/s 200 
2013 10 X 3Gb/s 450 
2014 16 X SGb/s 1000 


2015 297 亿 12Gb/s 1032 


2015 年 起 ，12306 系统 连续 三 年 顺利 通过 春运 大 考 。 该 系统 之 所 以 
能 取得 现在 的 成 功 ， 核 心思 想 是 “利用 云 计 算 资源 ”“ 按 需 及 时 扩充 ” 
和 “快速 调整 ”技术 上 使 用 Pivotal 的 Gemfire 架构 。Gemfire 在 表 1-1 
中 有 介绍 ， 它 是 一 种 key-value cache 的 NoSQL 解决 方案 。 简 单 地 讲 ， 
它 是 一 种 内 存 数据 库 。 相 比 于 磁盘 , 计算 机 内 存 的 数据 读 写 速度 要 高 出 
几 个 数量 级 ， 将 数据 保存 在 内 存 中 ， 相 比 直 接 从 磁盘 上 访问 ， 极 大 地 提 











大 数据 概述 


7 


— 


高 了 IO， 可 以 提升 系统 的 性 能 。Gemfire 使 用 x86 PC 服务 器 ， 其 性 价 
比 远 远 高 于 UNIX/Linux 小 型 机 。Gemfire 可 以 将 数 十 台 或 者 数 百 台 廉 
价 PC 服务 器 组 建成 一 个 集群 ， 组 成 最 高 可 达 数 十 TB 的 内 存 资源 池 ， 
将 全 部 数据 加 载 到 内 存 中 , 在 内 存 中 进行 计算 。 计 算 过 程 本 身 不 需要 读 
写 磁 盘 ， 只 是 定期 将 数据 以 同步 或 异步 方式 写 到 磁盘 。GemFire 在 分 布 
式 集群 中 保存 了 多 份 数据 , 任何 一 台 机 器 故障 ,其 他 机 器 上 还 有 备份 数 
据 ， 而 且 有 磁盘 数据 作为 备份 ， 因 此 通常 不 用 担心 数据 丢失 。GemFire 
支持 把 内 存 数据 持久 化 到 各 种 传统 的 关系 数据 库 、Hadoop 库 和 其 他 文 
件 系 统 中 。GemFire 以 其 卓越 的 性 能 ， 成 为 高 并 发 、 低 延迟 、 实 时 性 要 
求 高 的 大 数据 应 用 场景 的 有 力 竞争 者 。 


习题 1 


1. 传统 关系 型 数据 库 通常 支持 事务 处 理 ， 数 据 库 事务 拥有 四 个 特 
性 ， 习 惯 上 被 称 之 为 ACID 特性 。 查 阅 资料 简 述 什么 是 ACID 特性 ? 
2. 你 认为 大 数据 库 能 取代 传统 关系 数据 库 吗 ? 简 述 理由 。 
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Hadoop 基础 


Hadoop 由 分 布 式 存储 HDFS 和 分 布 式 计 算 MapReduce 两 部 分 组 成 。 
MapReduce 编程 模型 的 思想 来 源 于 函数 式 编程 语言 Lisp， 由 Google Z 
司 于 2004 年 提出 并 首先 应 用 于 大 型 集群 。 同时 , Google 也 发 表 了 GFS, 
BigTable 等 底层 系统 以 应 用 MapReduce 模型 。 在 2007 年 ，Google’s 
MapReduce Programming Model-Revisted 论文 发 表 ， 进 一 步 详 细 介 绍 了 
Google MapReduce 模型 以 及 Sazwall 并 行 处 理 海量 数据 分 析 语 言 。 
Hadoop 作为 Apache 基金 会 资助 的 开源 项 目 , 由 Doug Cutting 带领 的 团 
队 进行 开发 ， 基 于 Lucene 和 Nutch 等 开源 项 目 , 实现 了 Google 的 GFS 
和 Hadoop 在 多 个 节点 的 集群 的 稳定 运行 。2006 年 2 月 Apache Hadoop 
项 目 正 式 支 持 HDFS 和 MapReduce 的 独立 开发 。2008 年 之 后 ， 国 内 应 
用 和 研究 Hadoop 的 企业 也 越 来 越 多 ， 包 括 淘宝 、 百 度 、 腾 讯 、 网 易 和 
金山 等 。 

本 章 详细 介绍 Hadoop 的 生态 圈 、Hadoop 的 三 大 核心 组 件 、HDFS 
的 结构 、Hadoop 的 三 种 部 署 方法 〈 单 节点 部 署 、 伪 分 布 式 部 署 、 集 群 
部 署 ) 以 及 Hadoop 和 HDFS 常用 命令 。 通 过 本 章 的 学 习 和 实验 ， 读 者 
可 以 熟悉 Hadoop 集群 的 规划 、 部 署 、 配 置 以 及 简单 的 管理 和 维护 。 


2.1 Hadoop 简介 


Hadoop 是 Apache 软件 基金 会 的 一 个 开源 项 目 。 它 是 一 个 可 靠 的 、 
可 扩展 的 分 布 式 计算 框架 。 目 前 稳定 的 版 本 是 2.7.3, 测试 的 3.0.0-alpha2 
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版 本 也 已 经 发 布 。 它 主要 解决 海量 数据 存储 “HDFS)、 海 量 数据 分 析 
(MapReduce) 和 资源 管理 调度 问题 (YARN)。 在 普通 机 器 搭建 的 集群 
上 进行 海量 数据 (结构 化 与 非 结构 化 〉 的 存储 与 处 理 是 它 的 核心 功能 。 

Hadoop 不 仅 是 一 个 独立 项 目 ， 同 时 也 是 一 个 生态 圈 。HBase、Hive 
等 项 目 依托 于 Hadoop, 它们 面向 不 同 的 应 用 场景 , 增强 Hadoop 生态 图 
的 功能 ， 如 图 2-1 所 示 。 
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1. 三 大 核心 组 件 


Hadoop 有 三 大 核心 组 件 ， 如 图 2-2 所 示 。 

口 Hadoop Distributed File System (HDFS): 分 布 式 文件 系统 。 
口 YARN: 资源 管理 平台 。 

O MapReduce: 并 行 计算 框架 。 


Hadoop 三 大 核心 组 件 


图 2-2 Hadoop 三 大 核心 组 件 


2. HDFS 简介 


HDFS 是 分 布 式 结构 ， 它 有 易 扩 展 、 廉 价 易 得 、 高 吞吐 量 、 高 可 靠 
性 的 特点 。HDFS 在 存储 文件 时 , 文件 会 被 分 割 成 多 个 block 进行 存储 ， 
block 大 小 默认 为 64MB。 

HDFS 是 主 从 结构 的 ,有 主 节点 (NameNode) 和 从 节点 (DataNode)。 
一 个 主 节点 可 关联 多 个 从 节点 , 一 个 从 节点 也 可 关联 多 个 主 节点 。 从 节 
点 又 称 数据 节点 。 每 一 个 block 会 在 多 个 DataNode 上 存储 多 份 副 本 ， 
默认 是 3 份 。NameNode 负责 管理 文件 目录 、 文 件 和 block 的 对 应 关系 以 
及 block 和 DataNode 的 对 应 关系 。DataNode 仅 负 责 存储 数据 。 如 图 2-3 
所 示 。 





2-3 HDFS 结构 图 


3. MapReduce 简介 


MapReduce 是 Hadoop 中 的 一 个 分 布 式 计算 框架 ， 基 于 它 写 出 来 的 
应 用 程序 能 够 运行 在 Hadoop 集群 上 。MapReduce 采用 “分 而 治之 ”的 
思想 , 把 对 大 规模 数据 集 的 操作 , 分 发 给 一 个 主 节点 管理 下 的 各 个 从 节 
点 共同 完成 ， 然 后 通过 整合 各 个 节点 的 中 间 结 果 ， 得 到 最 终结 果 。 简 单 
地 说 ，MapReduce 就 是 “任务 的 分 解 与 结果 的 汇总 ”。 

在 Hadoop 中 , 用 于 执行 MapReduce 任务 的 机 器 角色 有 两 个 : 一 个 
是 JobTracker 即 任务 调度 器 ; 另 一 个 是 TaskTracker 即 任务 执行 器 。 任 
务 调度 器 调度 工作 ， 任 务 执行 器 执行 工作 。 一 个 Hadoop 集群 中 只 有 一 
台 JobTracker， 如 图 2-4 所 示 。 

在 分 布 式 计算 中 ，MapReduce 框架 负责 处 理 并 行 编程 中 分 布 式 存 
储 、 工 作 调 度 、 负 载 均衡 、 容 错 均衡 、 容 错 处 理 以 及 网 络 通信 等 复杂 问 
题 ， 把 处 理 过 程 高 度 抽象 为 两 个 函数 : Map 和 Reduce, Map 负责 把 任务 
分 解 成 多 个 子 任务 ,Reduce 负责 把 分 解 后 各 个 任务 处 理 的 结果 汇总 起 来 。 








图 2-4 MapReduce1.0 原理 图 
需要 注意 的 是 ， 用 MapReduce 来 处 理 的 数据 集 (或 任务 ) 必须 具 
备 这 样 的 特点 : 待 处 理 的 数据 集 可 以 分 解 成 许多 小 的 数据 集 , 而 且 每 一 
个 小 数据 集 都 可 以 完全 并 行 地 进行 处 理 。 


4. YARN 简介 


YARN 是 从 Hadoop-0.23.0 版 本 引入 的 新 的 资源 管理 系统 。 其 核心 思 
想 是 将 MapReduce 中 JobTracker 的 资源 管理 和 作业 调度 两 个 功能 分 开 , 分 
别 由 ResourceManager 和 ApplicationMaster 进程 来 实现 。ResourceManager 
负责 整个 集群 的 资源 管理 和 调度 ，ApplicationMaster 负责 应 用 程序 相关 
事务 ， 比 如 任务 调度 、 任 务 监控 和 容错 等 。 


5. HBase 简介 


HBase 是 一 个 建立 在 HDFS 之 上 , 面向 列 的 针对 结构 化 数据 的 可 伸 
缩 、 高 可 靠 性 、 高 性 能 、 分 布 式 和 面向 列 的 动态 模式 数据 库 。 它 提供 了 
对 大 规模 数据 的 随机 、 实 时 读 写 访问 ， 同 时 ， 保 存 的 数据 可 以 使 用 
MapReduce 来 处 理 ， 它 将 数据 存储 和 并 行 计 算 完 美 地 结合 在 一 起 。 


6. Hive 简介 


Hive 由 FaceBook 公司 开源 ， 最 初 用 于 解决 海量 结构 化 的 日 志 数据 
统计 问题 。Hive 定义 了 一 种 类 似 SQL 的 查询 语言 (HQL)， 将 SQL 转 
化 为 MapReduce 任务 ， 在 Hadoop 上 执行 ， 通 常用 于 离线 分 析 。HQL 
用 于 运行 存储 在 Hadoop 上 的 查询 语句 ，Hive 让 不 熟悉 MapReduce 的 
开发 人 员 也 能 编写 数据 查询 语句 ， 然 后 这 些 语 句 被 翻译 为 Hadoop 上 面 


的 MapReduce 任务 。 

Hive 和 HBase 是 两 种 基于 Hadoop 的 不 同 技术 。 前 者 是 一 种 类 SQL 
的 引擎 ,并 且 运 行 MapReduce 任务, 后 者 是 一 种 在 Hadoop 之 上 的 NoSQL 
的 Key/value 数据 库 ， 前 者 适合 做 分 析 统 计 ， 后 者 适合 做 大 数据 的 实时 
查询 ; 前 者 不 支持 更 新 操作 ， 后 者 可 以 更 新 数据 。 


7. Spark 简介 


Spark 是 一 种 与 Hadoop 相似 的 开源 集群 计算 环境 ， 它 基于 内 存 计 
算 ， 数 据 分 析 速 度 更 快 。Spark 除了 可 以 提供 交互 式 查询 外 ， 还 可 以 优 
化 迭代 工作 负载 。 它 支持 多 种 数据 源 ， 可 以 在 Hadoop 文件 系统 中 并 行 
运行 。Spark 是 Hadoop 生态 圈 中 的 重要 成 员 。 


8. Mahout 简介 


Mahout 起 源 于 2008 F, 最初 是 Apache Lucent 的 子 项 目 ， Mahout 
的 主要 目标 是 实现 一 些 可 扩展 的 机 器 学 习 领 域 经 典 算法 , 旨 在 帮助 开发 
人 员 更 加 方便 快捷 地 创建 智能 应 用 程序 。Mahout 现在 已 经 包含 了 聚 类 、 
分 类 、 推荐 引擎 (协同 过 滤 ) 和 频繁 集 挖掘 等 广泛 使 用 的 数据 挖掘 方法 。 
除了 算法 ，Mahout 还 包含 数据 的 输入 /输出 工具 ， 与 其 他 存储 系统 〈 如 
数据 库 、MongoDB 或 Cassandra) 集成 等 数据 挖掘 支持 架构 。 


9. Pig 简介 


Pig 由 Yahoo 开源 , 设计 动机 是 提供 一 种 基于 MapReduce 的 数据 分 
析 工 具 。Pig 定义 了 一 种 数据 流 语 言 Pig Latin， 它 是 MapReduce 编程 的 
复杂 性 的 抽象 ，Pig 平台 包括 运行 环境 和 用 于 分 析 Hadoop 数据 集 的 脚 
本 语言 (Pig Latin)。 其 编译 器 将 Pig Latin 翻译 成 MapReduce 程序 序 
列 , 将 脚本 转换 为 MapReduce 任务 在 Hadoop 上 执行 。 通 常用 于 进行 离 
线 分 析 。 


10. Flume 简介 


Flume 是 由 Cloudera 开源 的 日 志 收 集 系 统 , 具有 分 布 式 、 高 可 靠 性 、 
高 容错 性 、 易 于 定制 和 扩展 的 特点 。 它 将 数据 从 产生 、 传 输 、 处 理 并 最 
终 写 入 目标 的 路 径 的 过 程 抽象 为 数据 流 , 在 具体 的 数据 流 中 , 数据 源 支 
持 在 Flume 中 定制 数据 发 送 方 ， 从 而 支持 收集 各 种 不 同 协议 数据 。 同 
时 ，Flume 数据 流 提 供 对 日 志 数据 进行 简单 处 理 的 能 力 ， 如 过 滤 、 格 式 
转换 等 。 此 外 ，Flume 还 具有 能 够 将 日 志 写 往 各 种 数据 目标 (可 定制 ) 
的 能 力 。 
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11. Sqoop 简介 

Sqoop 是 SQL-to-Hadoop 的 缩写 , 主要 用 于 在 传统 数据 库 和 Hadoop 
之 间 传 输 数据 。 

12. Zookeeper 简介 

Zookeeper 解决 分 布 式 环境 下 的 数据 管理 问题 ， 比 如 统一 命名 、 状 


态 同步 、 集 群 管理 和 配置 同步 等 .Hadoop 的 许多 组 件 依赖 于 Zookeeper, 
它 运行 在 计算 机 集群 上 面 ， 用 于 管理 Hadoop 操作 。 


22 Hadoop 部 署 


Hadoop 有 以 下 三 种 部 署 方法 : 单 节 点 部 署 、 伪 分 布 式 部 署 和 集群 
部 署 ， 下 面 将 分 别 介绍 。 


2.2.1 单 节点 部 署 


1. 基础 知识 


要 学 习 和 使 用 Hadoop， 需 要 熟悉 Linux 基本 命令 ， 比 如 下 载 文 件 、 使 
用 vivim 编辑 文件 、 创 建文 件 和 创建 目录 等 。 并 且 要 能 够 配置 网 络 参数 ， 
比如 修改 主机 名 、 配 置 静态 IP 地 址 、 配 置 DNS 和 配置 本 地 域名 解析 等 。 


2. 软 硬 件 环境 


Hadoop 可 以 运行 在 Windows F €; #l Linux 平台 ,推荐 在 64 位 Linux 
系统 上 运行 。 本 书 选择 的 Linux 是 Centos7.0。 一 般 学 习 和 工作 使 用 
Windows 系统 ,推荐 在 Windows 中 使 用 虚拟 机 来 运行 Linux。 虚 拟 机 可 
以 选择 VirutalBox 或 者 VMware Workstation 。 

本 书 选择 的 Hadoop 版 本 是 2.7.3， 它 是 目前 最 新 的 正式 版 本 。 
Hadoop 2.6 以 及 以 前 的 版 本 只 支持 JDK6, 从 Hadoop 2.7 开 始 需要 JDK7。 
本 书 推荐 使 用 OpenJDK7。 


3. 安装 步骤 


(1) 在 虚拟 机 中 安装 Centos7。 
(2) 安装 ssh。 





$sudo yum install ssh 
(3) 安装 rsync。 


$sudo yum install rsync 


tiy 


e— 第 2 章 Hadoop 基础 


(4) 安装 openjdk。 
$sudo yum install java-1.7.0-openjdk-devel 
(5) 确认 jdk 版 本 。 


$java -version 

java version "1.7.0_131" 

OpenJDK Runtime Environment (rhel-2.6.9.0.el7_3-x86_64 u131-b00) 
OpenJDK 64-Bit Server VM (build 24.131-b00, mixed mode) 


(6) 下 载 Hadoop 的 安装 包 。 
先 在 Hadoop 官网 hadoop.apache.org 上 找到 Hadoop 相应 版 本 的 下 
载 地 址 , 从 图 2-5 中 可 以 看 出 Apache 官网 同时 提供 了 二 进 制 包 (binary) 
和 源码 包 (source) 的 下 载 ， 只 需要 下 载 可 执行 程序 。 单 击 某 个 版 本 的 
binary 之 后 ， 会 跳 转 到 镜像 服务 器 的 选择 页 面 如 图 2-6 所 示 。 然 后 复 
制 .tar.gz 文件 的 下 载 地 址 。 


Apache Hadoop Releases a 
PDF 





Download 


Hadoop is released as source code tarballs with corresponding binary tarballs for convenience. The downloads are 
distributed via mirror sites and should be checked for tampering using GPG or SHA-256. 


2.0.0-alpha2 25 January, 2017 source signature Shecksum file 
binary signature Shecksum file 
3.0.0-alphal 03 September, 2016 Source signature checksum file 
binary signature checksum file 
223 25 August, 2016 source signature 227785DC 6E3E6EF8.. 
binəry signature D489DF38 08244890.. 
26.5 08 October, 2016 source signature 2A943F18 73099514.. 
binary signature 001AD18D 4B6D0EES.. 
2.5.2 19 Nov, 2014 soure signature 139EF872 09C5637E.. 
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We suggest the following mirror site for your download: 
http/mirror.olnevhost.net/pub/apache/hadoop'common/hadoop-2.7.3/hadoop-2.7.3.tar.gz 


Other mirror sites are suggested below. Please use the backup mirrors only to download PGP and MDS 
signatures to verify your downloads or if no other mirrors are working. 


HTTP 


http://apache.claz.orghadoop/commonhadoop-2.7.3/hadoop-2.7.3.tar.gz 


http;/apache.cs.utah.edu/hadoop/common/hadoop-2.7.3ħhadoop-2.7.3.tar.gz 





http:JJapache mesi.com.ar/hadoop/common/hadoop-2.7.3/hadoop-2.7.3.tar gz 
http:JfJapache mirrors hoobly.com/hadoop/common/hadoop-2.7.3/hadoop-2.7.3.tar.gz 


httpJlapache mirrorsionfish.org/hadoop/common/hadoop-2.7.3/hadoop-2.7.3.tar.gz 


图 2-6 Hadoop 下 载 地 址 
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在 当前 登录 Linux 的 用 户 的 Home 目录 中 下 载 Hadoop 安装 包 。 


$cd ~ 
$wget 下 载 地 址 


(7) 解压 。 


tar zxvf hadoop-2.7.3.tar.gz 


解压 成 功 之 后 ，Hadoop 的 路 径 为 /home/hadoop/hadoop-2.7.3， 一 般 

称 该 路 径 为 Hadoop 的 Home， 后 面 的 命令 一 般 都 是 在 该 路 径 下 执行 。 
(8) 在 Hadoop 的 配置 文件 〈etc/hadoop/hadoop-env.sh) 中 增加 环 
境 变量 JAVA_HOME。 

在 Centos7 中 yum 安装 JDK 之 后 , JAVA_HOME 一 般 设 置 为 : /etc/ 
alternatives/java_sdk/jre_1.7.0_openjdk 或 者 /etc/alternatives/ire_1.7.0_openjdk， 
其 他 发 行 版 本 的 Linux 的 JDK 位 置 稍 有 不 同 ， 请 根据 实际 情况 做 适当 
调整 。 如 图 2-7 所 示 ， 将 原来 的 export JAVA HOME 这 一 行 注解 掉 ， 然 
后 配置 为 实际 的 值 。 


P hadoop@master:~/hadoop-2.7.3 = (zi x 


# "License"); you may not use this file except in compliance 
# with the License. You may obtain a copy of the License at 


http://www.apache.org/licenses/LICENSE-2.0 


Unless required by applicable law or agreed to in writing, software 
distributed under the License is distributed on an "AS IS" BASIS, 
WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied. 
See the License for the specific language governing permissions and 
limitations under the License. 


5 96 se 96 96 96 * ** 


* 


Set Hadoop-specific environment variables here. 


The only required environment variable is JAVA HOME. All others are 
optional. When running a distributed configuration it is best to 
set JAVA_HOME in this file, so that it is correctly defined on 
remote nodes. 


** e e 


# The java implementation to use. 
export JAVA _HOME=/etc/alternatives/java_sdk] 


# The jsvc implementation to use. Jsvc is required to run secure datanodes 
# that bind to privileged ports to provide authentication of data transfer 
25,44 6% 


图 2-7 配置 hadoop-env.sh 
(9) 至 此 完成 了 Hadoop 的 单 节点 部 署 ， 接 下 来 验证 配置 是 否 正 确 。 
$bin/hadoop version 


在 hadoop-2.7.3 的 安装 目录 下 运行 bin/hadoop version， 如 图 2-8 
所 示 。 
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[hadoop@master hadoop-2.7.3]$ pwd 

/home/hadoop/hadoop-2.7.3 

[hadoop@master hadoop-2.7.3]$ bin/hadoop version 

Hadoop 2.7.3 

Subversion https://git-wip-us.apache.org/repos/asf/hadoop.git -r baa91f7c6bc 
Compiled by root on 2016-08-18T01:412 

Compiled with protoc 2.5.0 

From source with checksum 2e4ce5f957ea4db193bce3734ff29ff4 

This command was run using /home/hadoop/hadoop-2.7.3/share/hadoop/common/had 
[hadoop@master hadoop-2.7.3]$ 


2-8 验证 配置 


(10) 运行 MapReduce 任务 。 

Hadoop 的 发 行 包 里 提供 了 一 个 名 称 为 hadoop-mapreduce-examples- 
2.7.3.jar 的 jar 包 。 该 jar 是 MapReduce 的 演示 程序 , 开发 人 员 可 以 按 它 
的 结构 、 思 路 进行 开发 ， 测 试 人 员 可 以 用 它 测试 集群 能 否 正常 工作 。 该 
程序 本 身 的 一 个 功能 是 从 文本 文件 中 按 用 户 提供 的 正则 表达 式 提取 内 
X, 把 提取 到 的 内 容 放 到 指定 的 目录 中 。 比 如 可 以 用 它 来 分 析 一 个 文本 
文件 ， 把 其 中 的 纯 数 字 的 行 提取 出 来 。 首 先 在 hadoop-2.7.3 的 根 目录 下 
创建 一 个 input 的 目录 ， 目 录 里 新 建 一 个 文本 文件 ， 名 称 为 1.txt， 内 容 
如 图 2-9 所 示 ， 其 中 有 两 行 纯 数字 ， 分 别 是 123 和 456。 


EP hadoop@m1:~ = o x 


ab 

ca 

dd 
aadada 
123 
aaaaaa 
3dddd 
dddd3 
456 
zzz 
bbbb 
ccccccc 
1.0f 
100$% 
pi 
3.14 
ddd 
zzz 
ccccccc 
dddddd 
ddddd 


dddd 目 
~lstxt™ 23L; 114C 


图 2-9 输入 的 文本 文件 
接 下 来 ， 在 hadoop-2.7.3 的 根 目 录 下 运行 命令 。 
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$bin/hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.3 jar 
grep input output ` “Xd+$' 


上 述 命令 的 含义 是 执行 当前 目录 下 bin 目录 里 的 hadoop 程序 。jar 
是 bin/hadoop 的 参数 ， 表 示 后 面 的 jar £) (share/hadoop/mapreduce/ 
hadoop-mapreduce-examples-2.7.3.jar) 通过 bin/hadoop 目录 加 载 执行 。 
grep 以 及 后 面 的 部 分 是 hadoop-mapreduce-examples-2.7.3.jar 需要 的 参 
数 ， 指 定 了 输入 目录 是 input， 输 出 目录 是 output， 输 入 的 正则 表达 式 
是 '^\d+$'。 特 别 要 注意 output 不 需要 自己 创建 ， 也 不 能 自己 创建 ， 否 则 
运行 时 将 抛 出 异常 。 如 图 2-10 所 示 。 


[hadoop@master hadoop-2.7.3]$ pwd 
/home/hadoop/hadoop-2.7.3 

[hadoop@master hadoop-2.7.3]$ bin/hadoop jar share/hadoop/mapreduce/hadoop-m 
apreduce-examples-2.7.3.jar grep input output '^\d+$' 

17/08/06 17:01:00 WARN util.NativeCodeLoader: Unable to load native-hadoop 1 
ibrary for your platform... using builtin-java classes where applicable 
17/08/06 17:01:01 INFO Configuration.deprecation: session.id is deprecaced. 
Instead, use dfs.metrics.session-id 

17/08/06 17:01:01 INFO jvm.JvmMetrics: Initializing JVM Metrics with process 
Name=JobTracker, sessionId= 

17/08/06 17:01:01 INFO input.FileInputFormat: Total input paths to process : 
1 

17/08/06 17:01:01 INFO mapreduce.JobSubmitter: number of splits:1 

17/08/06 17:01:01 INFO mapreduce.JobSubmitter: Submitting tokens for job: jo 
b_loca1454640348_0001 

17/08/06 17:01:01 INFO mapreduce.Job: The url to track the job: http://local 
host:8080/ 

17/08/06 17:01:01 INFO mapreduce.Job: Running job: job local454640348 0001 
17/08/06 17:01:01 INFO mapred.LocalJobRunner: OutputCommitter set in config 
null 


2-10 执行 mapreduce 任务 


如 果 没 有 提示 异常 ， 表 示 MapReduce 任务 执行 成 功 。 最 后 验证 结 
果 是 否 正 确 ， 如 图 2-11 所 示 。MapReduce 处 理 之 后 ， 提 取出 来 的 结果 
符合 预期 。 
[hadoop@master hadoop-2.7.3]$ pwd 
/home/hadoop/hadoop-2.7.3 
[hadoop@master hadoop-2.7.3]$ cat output/* 


£ 456 
z 123 


图 2-11 验证 结果 
2.2.2” 伪 分 布 式 部 署 
Hadoop 除了 可 以 单 节 点 部 署 ， 还 可 以 伪 分 布 式 部 署 。 伪 分 布 式 部 


署 是 在 单 节点 部 署 的 基础 上 继续 配置 , 因此 先 完成 单 节点 部 署 , 再 完成 
下 面 的 步 又。 


1. SSH 免 密 码 登录 


SSH 为 Secure Shell 的 缩写 , 是 专 为 远程 登录 会 话 和 其 他 网 络 服务 
提供 安全 保障 的 协议 。 在 Hadoop 启动 过 程 中 ， 很 多 Hadoop 核心 服务 
需要 通过 SSH 远程 登录 来 启动 ， 这 就 需要 在 节点 之 间 执 行 指令 时 不 输 
入 密码 ， 因 此 需要 配置 SSH 使 用 无 密码 公 钥 认证 。 配 置 过 程 如 下 : 

(1) 产生 公 铀 和 私 钥 ， 如 图 2-12 所 示 。 


$ssh-keygen -t rsa -P " -f —/.ssh/id_rsa 


执行 上 述 命令 , 会 在 当前 用 户 home 里 创建 .ssh 目录 ,并且 在 该 目录 
下 生成 一 对 公 钥 和 私 钥 。 使 用 的 算法 是 RSA。 公 钥 的 文件 名 是 id_rsapub， 
私 钥 的 文件 名 是 id_rsa。 


[hadoop@master ~]$ ssh-keygen -t rsa -P '' -f ~/.ssh/id rsa 
Generating public/private rsa key pair. 

Created directory '/home/hadoop/.ssh'. 

Your identification has been saved in /home/hadoop/ .ssh/id rsa. 
Your public key has been saved in /home/hadoop/.ssh/id rsa.pub. 
The key fingerprint is: 
5a:f7:17:a5:5b:c7:60:60:a2:d5:44:d3:01:ab:26:2a hadoop@master 
The key's randomart image is: 


+--[ RSA 2048]----+ 
1 o+Bo.. | 
I o o.+. l 
I . ° .l 
I S kasi. 
I s + ° +I 
I ++ +. 
I E o ° | 
I ` I 
1 1 
+----------------- + 


2-12 产生 公 钥 和 私 钥 
(2) 将 公 钥 放 到 目标 机 器 的 ~/.ssh/authorized_keys 中 。 
$cp ~/.ssh/id_rsa.pub —/.ssh/authorized_keys 
如 果 authorized key 已 经 存在 ， 应 该 将 id_rsa.pub 的 内 容 追 加 到 
authorized key, 反之 可 以 直接 使 用 cp 命令 创建 该 文件 , 如 图 2-13 所 示 。 


[hadoop@master ~]$ cp ~/.ssh/id rsa.pub ~/.ssh/authorized keys 
[hadoop@master ~]$ ls -13 ~/.ssh 


total 12 
4 -rw-r--r-- 1 hadoop hadoop 395 Aug 6 17:14 authorized keys 
二 1 hadoop hadoop 1679 Aug 6 17:09 id rsa 


4 -rw-r--r-- 1 hadoop hadoop 395 Aug 6 17:09 id rsa.pub 
[hadoop@master ~]$ 


图 2-13 发 布 公 钥 





(3) 验证 。 在 终端 执行 ssh localhost。 由 于 ~/.ssh/known_hosts 中 
没有 记录 本 地 机 器 , 第 一 次 登录 时 , 会 有 一 个 确认 动作 ,需要 输入 yes, 
以 后 登录 不 再 需要 确认 。 注 销 登 录用 exit 命令 。 如 图 2-14 所 示 。 


[hadoop@master ~]$ ssh localhost 


The authenticity of host 'localhost (::1)' can't be established. 


ECDSA key fingerprint is ff:05:a4:b1:35:39:b6:bf:de:82:d2:e4:43:20:ce:86. 
Are you sure you want to continue connecting (yes/no)? yes 

Warning: Permanently added 'localhost' (ECDSA) to the list of known hosts. 
Last login: Sun Aug 6 16:41:27 2017 

[hadoop@master ~]$ exit 

logout 

Connection to localhost closed. 

[hadoop@master ~]$ ssh localhost 

Last login: Sun Aug 6 17:16:35 2017 from ::1 

[hadoop@master ~]$ 


2-14 IE ssh 免 密 码 登录 
2. 修改 配置 文件 


(1) 修改 配置 文件 etc/hadoop/core-site.xml。 


<configuration> 
<property> 
<name>fs.defaultFS</name> 
<value>hdfs://localhost:9000</value> 
</property> 
</configuration> 


(2) 修改 配置 文件 etc/hadoop/hdfs-site.xml。 


<configuration> 
<property> 
<name>dfs.replication</name> 
<value>1</value> 


</property> 
</configuration> 


3. 格式 化 NameNode 


$bin/hdfs namenode -format 


如 果 不 报 异常 ， 并 且 提 示 “ Storage directory /tmp/hadoop-hadoop/ 
dfs/name has been successfully formatted.”， 表 示 格 式 化 成 功 ， 如 图 2-15 
所 示 。 注 意 ， 请 勿 进行 重复 格式 化 操作 。 每 次 格式 化 NameNode Bf, 
Hadoop 会 重新 创建 一 个 namenodeId， 但 是 不 会 清空 DataNode 下 的 数 
据 ， 因 此 该 操作 会 导致 NameNode 与 DataNode 的 namenodeId 不 一 致 ， 
造成 DataNode 守护 进程 启动 失败 。 
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[hadoop@master hadoop-2.7.3]$ bin/hdfs namenode -format 

17/08/06 17:20:56 INFO namenode.NameNode: STRRTUP MSG: 
/YAWKRRKRKRKKKKKKKKKRKKRKAKKKKKKKKKRAKARkKkKAKKkKAAKkkkAkkkkkkkkkkk A 

STARTUP MSG: Starting NameNode 

STARTUP MSG: host = master/10.30.2.22 

STARTUP MSG: args = [-format] 

STARTUP MSG: version = 2.7.3 

STARTUP MSG: classpath = /home/hadoop/hadoop-2.7.3/etc/hadoop:/home/hadoop 
/hadoop-2.7.3/share/hadoop/common/lib/jaxb-impl-2.2.3-1.jar:/home/hadoop/had 
20p-2.7.3/share/hadoop/common/lib/jaxb-api-2.2.2.jar:/home/hadoop/hadoop-2.7 
.3/share/hadoop/common/lib/stax-api-1.0-2.jar:/home/hadoop/hadoop-2.7.3/shar 


2-15 ”格式 化 namenode 
4. 启动 NameNode 和 DataNode 的 守护 进程 


$ sbin/start-dfs.sh 
$jps 
注意 start-dfs.sh 在 sbin 目录 里 。 命 令 jps 的 作用 是 检查 守护 进程 


是 否 在 工作 。 正 常情 况 下 会 启动 3 个 进程 : NameNode、DataNode 和 
SecondaryNameNode。 如 图 2-16 所 示 。 


[hadoopEmaster hadoop-2.7.3]$ sbin/start-dfs.sh 

17/08/06 17:30:37 WARN util.NativeCodeLoader: Unable to load native-hadoop 1 
ibrary for your platform... using builtin-java classes where applicable 
Starting namenodes on [localhost] 

localhost: starting namenode, logging to /home/hadoop/hadoop-2.7.3/logs/hado 
op-hadoop-namenode-master.out 

localhost: starting datanode, logging to /home/hadoop/hadoop-2.7.3/1ogs/hado 
op-hadoop-datanode-master.out 

Starting secondary namenodes [0.0.0.0] 

0.0.0.0: starting secondarynamenode, logging to /home/hadoop/hadoop-2.7.3/10 
gs/hadoop-hadoop-secondarynamenode-master.out 

17/08/06 17:30:54 WARN util.NativeCodeLoader: Unable to load native-hadoop 1 
ibrary for your platform... using builtin-java classes where applicable 
[hadoop@master hadoop-2.7.3]$ jps 

3217 NameNode 

3608 SecondaryNameNode 

3379 DataNode 

3816 Jps 


2-16 ”启动 namenode 和 datanode 守护 进程 
要 关闭 dsf， 使 用 的 命令 如 下 : 
$ sbin/stop-dfs.sh 


5. 通过 web 检查 dfs 状态 


在 浏览 器 中 打开 http://localhost:50070， 如 图 2-17 所 示 。 

到 目前 为 止 ，dfs 已 经 配置 完成 。 接 下 来 通过 实验 验证 dfs 是 否 正 
常 工作 ,将 2.2.1 节 中 创建 的 input/1.txt 存储 到 集群 中 , 执行 MapReduce 
任务 ， 并 且 验 证 结果 。 
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° 22 大 数据 实践 一 


| Namenode information x + 


€ @ localhost:50070/dfs! 





v e ||Q 搜索 











Overview 'localhost:9000' (active) 


Started: Wed Mar 01 16:25:57 CST 2017 

Version: 2.7.3, rbas91f7c6bcScb32be5982de4719clc8af9lccff 
Compiled: 2016-08-18T01:41Z by root from branch-2.7.3 
Cluster ID: CID-62aa9914-fcb3-4a45-bal7-70b663abllb3 

Block Pool ID: BP-1992987573-127.0.0.1-1488356722178 
Summary 
Security is off. k 
Safemode is off. 


1 files and drectories, 0 blocks = 1 total filesystem object (s). 
2-17 检查 dfs 状态 


(1) 首先 在 集群 的 根 目 录 下 创建 input 目录 ,然后 列 出 根 目录 下 的 
文件 和 目录 以 确认 是 否 创建 成 功 。 


$ bin/hdfs dfs -mkdir /input 
$ bin/hdfs dfs -Is / 


执行 结果 如 图 2-18 所 示 。 


[hadoop@master hadoop-2.7.3]$ bin/hdfs dfs -mkdir /input 

17/08/06 17:32:31 WARN util.NativeCodeLoader: Unable to load native-hadoop 1 
ibrary for your platform... using builtin-java classes where applicable 
[hadoop@master hadoop-2.7.3]$ bin/hdfs dfs -ls / 

17/08/06 17:32:41 WARN util.NativeCodeLoader: Unable to load native-hadoop 1 


ibrary for your platform... using builtin-java classes where applicable 
Found 1 items 
drwxr-xr-x - hadoop supergroup 0 2017-08-06 17:32 /input 


图 2-18 在 集群 中 创建 目录 
(2) 上 传 文件 并 在 命令 行 验证 。 


$ bin/hdfs dfs -put input/1.txt /input/ 
$ bin/hdfs dfs -ls /input 


执行 结果 如 图 2-19 所 示 。 
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[hadoop@master hadoop-2.7.3]$ bin/hdfs dfs -put input/1.txt /input/ 
17/08/06 17:37:02 WARN util.NativeCodeLoader: Unable to load native-hadoop 1 
ibrary for your platform... using builtin-java classes where applicable 
[hadoop@master hadoop-2.7.3]$ bin/hdfs dfs -13 /input 

17/08/06 17:37:08 WARN util.NativeCodeLoader: Unable to load native-hadoop 1 
ibrary for your platform... using builtin-java classes where applicable 
Found 1 items 


-rw-r--r-- 1 hadoop supergroup 57 2017-08-06 17:37 /input/1.txt 


2-19 上传 文件 到 集群 


(3) 在 Web 上 验证 文件 内 容 。 在 主 菜单 中 选择 Utilities 一 Brows File 
System， 在 输入 框 输入 路 径 /input， 然 后 单 击 Go 按钮 ， 即 可 看 到 文件 。 可 
以 下 载 该 文件 ， 核 对 文件 内 容 ， 如 图 2-20 所 示 。 


J Browsing HDFS x+ 





ve 


€ 8 ocanost soc wé. 


k 
Browse Directory 


Vnputy qo! 


Permission owner Group Size Lost Modified Replication Block Size Nome 


rw 一 [一 cadao supergroup NB 2017/3/1 FF5:39:20 k 1238 Ltxt 


2-20 在 Web 上 验证 文件 内 容 
(4) 运行 MapReduce 任务 。 


$bin/hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.3.jar 
grep /input/1.txt /output 'AAd+$' 


与 单 节 点 部 署 类 似 ， 该 命令 不 能 重复 运行 ， 下 次 运行 前 ， 需 要 先 删除 
/output 目录 ， 或 者 修改 输出 目录 名 。 注 意 与 2.2.1 小 节 中 运行 MapReduce 
的 命令 比较 ，output 前 多 了 一 个 斜 线 。 如 图 2-21 所 示 。 


[hadoop@master hadoop-2.7.3]$ bin/hadoop jar share/hadoop/mapreduce/hadoop-m 
apreduce-examples-2.7.3.jar grep /input/1.txt /output '^\d+$' 

17/08/06 17:44:09 WARN util.NativeCodeLoader: Unable to load native-hadoop 1 
ibrary for your platform... using builtin-java classes where applicable 
17/08/06 17:44:10 INFO Configuration.deprecation: session.id is deprecated. 
Instead, use dfs.metrics.session-id 

17/08/06 17:44:10 INFO jvm.JvmMetrics: Initializing JVM Metrics with process 
Name=JobTracker, sessionId= 

17/08/06 17:44:10 INFO input.FileInputFormat: Total input paths to process : 
2 

17/08/06 17:44:10 INFO mapreduce.JobSubmitter: number of splits:1 

17/08/06 17:44:10 INFO mapreduce.JobSubmitter: Submitting tokens for job: jo 
b_loca11093519633_0001 


Æ 2-21 运行 MapReduce 任务 
(5) 输出 MapReduce 运行 结果 ， 并 验证 结果 是 否 正确 。 


$ bin/hdfs dfs -cat /output/* 





基 


执行 结果 如 图 2-22 所 示 ， 结 果 符 合 预期 。 


[hadoop@master hadoop-2.7.3]$ bin/hdfs dfs -cat /output/* 
17/08/06 17:44:24 WARN util.NativeCodeLoader: Unable to load native-hadoop 1 


ibrary for your platform... using builtin-java classes where applicable 
1 456 
š 123 


2-22 输出 MapReduce 运行 结果 
6. 配置 YARN 
(1) 修改 配置 文件 etc/hadoop/mapred-site.xml。 


<configuration> 
<property> 
<name>mapreduce .framework.name</name> 
<value>yarn</value> 
</property> 
</configuration> 


(2) 修改 配置 文件 etc/hadoop/yarn-site.xml。 


<configuration> 
<property> 
<name>yarn.nodemanager.aux-services</name> 
<value>mapreduce_shuffle</value> 
</property> 
</configuration> 


(3) 启动 资源 管理 进程 和 节点 管理 进程 。 


$sbin/start-yarn.sh 
$jps 


用 jps 命 令 查看 进程 ,可 以 发 现 多 了 NodeManager #ll ResourceManager, 
如 图 2-23 所 示 。 关 闭 进程 的 命令 是 sbin/stop-yarn.sh。 


[hadoop@master hadoop-2.7.3]$ sbin/start-yarn.sh 

starting yarn daemons 

starting resourcemanager, logging to /home/hadoop/hadoop-2.7.3/logs/yarn-had 
oop-resourcemanager-master.out 

localhost: starting nodemanager, logging to /home/hadoop/hadoop-2.7.3/1logs/y 
arn-hadoop-nodemanager-master.out 

[hadoop@master hadoop-2.7.3]$ jps 

3217 NameNode 

5606 NodeManager 

6021 Jps 

3608 SecondaryNameNode 

5476 ResourceManager 

3379 DataNode 


图 2-23 ”启动 资源 管理 进程 和 节点 管理 进程 
(4) 查看 ResourceManager 的 Web 接口 ， 如 图 2-24 所 示 。 





Au Applications x + 


€ @ localhost: e v e ||9 搜索 “ë ++ 
CIELE All Applications 
~ Cluster Cluster Metrics 


Apps Containers Memory Memory Memory V 
Sumitted Perdrg Runing Complered fuming tsed Total Reserved 
n o n n o oe aGB oB 
Scheduler Metrics 

Scheduler Type Scheduling Rescurce Type 
Capacity Scheduler [MEMORY] <memory:1024, vCores: 





Show 20 ~|entries 





D Uer ne Appiatntypes queue > StatTme ， FnshTme Stata — Fralstatus Fo 


Scheduler 


No data avaliable n tabe 


+ Tools Showing 0 to 0 of D entries 


2-24 查看 ResourceManager 的 Web 接口 


到 此 伪 分 布 式 部 署 完 成 。 此 时 还 需要 验证 YARN 启动 之 后 MapReduce 
的 执行 情况 ， 本 书 略 过 ， 请 读者 将 此 作为 习题 自行 练习 。 


22.3 ”集群 部 署 


学 习 了 单机 部 署 之 后 ， 接 下 来 学 习 集群 部 署 。Hadoop 的 集群 有 多 
种 架构 ， 常 见 的 有 : 传统 的 NameNode 加 SecondaryNameNode 方式 、 
Active Namenode 加 Standby Namenode 方式 即 High Availability 方式 以 
及 High Availability 加 Federation 方式 ， 如 表 2-1 所 示 。 


表 2-1 Hadoop 集群 部 署 架 构 


版 本 
1 zr lx 和 2x 


2 Active Namenode 加 Standby Namenode |2.x 


3 HA + Federation | 两 组 Active Namenode 和 Standby Namenode | 2.x 


相 比 于 Hadoop 1.0, Hadoop 2.0 中 的 HDFS 增加 了 两 个 重大 特性 : 

HA 和 Federaion。HA 即 为 High Availability， 用 于 解决 NameNode 单 点 
故障 问题 , 该 特性 通过 热 备 的 方式 为 主 NameNode 提供 一 个 备用 者 , 一 
且 主 NameNode 出 现 故 障 ， 可 以 迅速 切换 至 备用 SecondaryNameNode， 
从 而 实现 不 间断 对 外 提供 服务 。Federation 即 为 “联邦 ” 该 特性 允许 一 
个 HDFS 集群 中 存在 多 个 NameNode 同时 对 外 提供 服务 ， 这 些 
NameNode 分 管 一 部 分 目录 〈 水 平 切 分 )， 彼 此 之 间 相 互 隔离 ， 但 共享 
底层 的 DataNode 存储 资源 ， 进 一 步 提升 集群 的 性 能 和 可 靠 性 。 建 议 初 
学 者 先 学 习 传 统 方式 的 配置 。 本 书 不 对 HA 和 Federation 做 详细 介绍 。 








1. 集群 规划 
为 更 好 地 理解 集群 中 各 服务 器 的 功能 , 这 里 计划 安排 6 台 Linux JR 
务 器 进行 搭建 ， 如 表 2-2 所 示 。 
表 2-2 集群 规划 


进 程 





10.17.147.101 NameNode 


| my | 10.17 147.102 SecondaryNamenode 


10.17.147.103 | ResourceManager,JobHistory 








10.17.147.105 DataNode, DataNodeManager 


| m | 10.17.147.106 DataNode, DataNodeManager 


2. 准备 工作 


(1) 准备 6 € Linux 服务 器 ， 也 可 以 用 虚拟 机 。1GB 以 上 内 存 ， 
10GB 以 上 存储 空间 。 

(2) 分 别 将 6 台 机 器 命名 为 m1~m6， 并 指定 静态 IP 地 址 。 建 议 
使 用 连续 IP 地 址 ， 并 且 使 机 器 名 与 IP 地 址 有 一 定 的 对 应 关系 ， 减 少 
出 错 的 可 能 。 例 如 : ml 的 IP 地 址 为 10.17.147.101，m2 的 IP 地 址 为 
10.17.147.102 。 

G) 所 有 机 器 配置 本 地 机 器 名 解析 。 修 改 /etc/hosts， 增 加 ml~m6 
的 解析 。 

(4) 所 有 机 器 之 间 配 置 ssh 免 密码 登录 。 

实验 环境 中 可 以 使 用 前 面 2.2.2 小 节 中 ssh 免 密码 的 配置 方式 ， 用 
一 个 公 钥 和 私 钥 管 理 集群 中 所 有 的 机 器 。 具体 办 法 是 先 在 ml 上 做 自身 
的 ssh 免 密码 登录 配置 ， 然 后 将 ~/.ssh/* 用 scp 命令 复制 到 其 他 机 器 的 
/home/ 用 户 名 /.ssh/。 

(5) 关闭 防火 墙 。 

Centos7 下 关闭 、 禁 用 默认 防火 墙 以 及 检查 其 状态 的 命令 如 下 ， 其 
他 Linux 请 查阅 相关 文档 。 
$sudo systemctl stop firewalld 


$sudo systemctl disable firewalld 
$sudo systemctl status firewalld 


(6) 下 载 Hadoop 安装 包 ， 并 解压 到 适当 的 位 置 。 
(7) 所 有 机 器 上 使 用 相同 版 本 的 jdk 和 Hadoop 版 本 ， 并 且 保 证 
Hadoop 的 目录 在 相同 的 位 置 。 





2 
3 
4 10.17.147.104 | DataNode, DataNodeManager 
5 
6 
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3. 准备 工作 的 验证 


(1) 验证 本 地 机 器 名 解析 正常 。 

在 任意 一 台 机 器 上 ping 其 他 机 器 ， 能 解析 到 IP 地 址 ， 并 且 网 络 延 
迟 小 。 

(2) 验证 ssh 免 密码 配置 成 功 。 

在 任意 一 台 机 器 上 用 ssh 登录 ， 其 他 机 器 不 用 输入 密码 也 没有 其 他 
提示 。 请 注意 ， 这 个 步骤 一 定 要 做 。 因 为 第 一 次 使 用 ssh 登录 时 ， 本 地 
~/.ssh/known_hosts 是 空 的 。ssh 会 核对 远 端 机 器 的 IP 地 址 ， 并 将 发 过 
来 的 公 钥 与 本 地 known hosts 文件 中 的 内 容 作 比较 。 如 果 文 件 中 没有 该 
IP 的 公 钥 ,会 显示 一 个 警告 信息 ,询问 是 否 继续 连接 。 这 个 警告 信息 会 
中 断 自动 化 操作 。 

(3) 在 每 台 机 器 上 运行 java -version 检查 jdk 版 本 。 
(4) 在 每 台 机 器 上 检查 防火 墙 状态 。 


4. 配置 Hadoop 参数 


可 以 在 ml 上 配置 参数 , 待 全 部 参数 配置 完成 后 再 分 发 到 其 他 机 器 上 。 
(1) 配置 etc/hadoop/hadoop-env.sh。 找 到 JAVA HOME， 改 为 : 


export JAVA_HOME=/etc/alternatives/jre_1.7.0_openjdk 


(2) 配置 core-site.xml。 
fs.defaultFS 指定 hdfs AO, 一般 放 在 NameNode 上 。 开 发 Hadoop 
应 用 时 , 程序 访问 集群 需要 用 到 它 。hadoop.tmp.dir 指定 Hadoop 的 数据 
目录 的 位 置 ， 默 认 值 为 /tmp/hadoop-${user.name}， 建 议 放 在 用 户 home 
目录 里 ， 如 /home/ 用 户 名 /hadoopData。 


<configuration> 
<property> 
<name>fs.defaultFS</name> 
<value>hdfs://m1:9000</value> 
</property> 
<property> 
<name>hadoop.tmp.dir</name> 
<value>/home/ 用 户 名 /hadoopData</value> 
</property> 
<property> 
<name>io .file.buffer.size</name> 
<value>131072</value> 
</property> 
</configuration> 
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(3) 配置 etc/hadoop/hdfs-site.xml。 
dfs.namenode.http-address 和 dfs.namenode.secondary.http-addres 分 别 指 
定 NameNode 和 SecondaryNameNode 的 Web 页 面 地 址 。 用 户 可 以 通过 这 两 
个 地 址 观察 运行 情况 。dfs.replication 指定 了 文件 副本 数量 。 当 一 个 文件 
被 存储 到 集群 的 时 候 , 副本 数 为 多 少 , 文件 就 被 存储 几 份 ， 该 参数 不 能 
大 于 datanode 节点 的 数量 。 


<configuration> 
<property> 
<name>dfs.namenode.http-address</name> 
<value>m1:50070</value> 
</property> 
<property> 
<name>dfs.namenode.secondary.http-address</name> 
<value>m2:50070</value> 
</property> 
<property> 
<name>dfs.replication</name> 
<value>3</value> 
</property> 
</configuration> 


(4) 配置 etc/hadoop/mapred-site.xml。 
mapreduce.framework.name 指定 使 用 yarn 运行 MapReduce 程序 。 
mapreduce.jobhistory.address 指定 JobHistoryServer 的 地 址 。mapreduce. 
jobhistory.webapp.address 指定 JobHistoryServer 的 Web 地 址 ,用 户 可 以 通 
过 这 个 地 址 查看 它 的 运行 状况 。 


<configuration> 
<property> 
<name>mapreduce.framework.name</name> 
<value>yarn</value> 
</property> 
<property> 
<name>mapreduce jobhistory.address</name> 
<value>m3:10020</value> 
</property> 
<property> 
<name>mapreduce.jobhistory.webapp.address</name> 
<value>m3:19888</value> 
</property> 
</configuration> 


(5) 配置 etc/hadoop/yarn-site.xml。 
参数 yam.resourcemanager. hostname 是 指 运行 ResorceManager 的 服 


务 器 。 


<configuration> 

<property> 
<name>yarn.resourcemanager.hostname</name> 
<value>m3</value> 

</property> 

<property> 
<name>yarn.nodemanager.aux-services</name> 
<value>mapreduce_shuffle</value> 


</property> 
</configuration> 


(6) 配置 etc/hadoop/slaves。 


m4 
m5 
m6 


(7) 分 发 配置 文件 。 在 ml 上 执行 下 面 的 命令 。 下 列 命令 会 将 整 
个 Hadoop 的 目录 分 发 出 去 ， 如 果 只 分 发 配置 文件 ， 可 以 只 复制 /home/ 
hadoop/hadoop-2.7.3/etc/hadoop 目录 。 
scp -r /home/hadoop/hadoop-2.7.3 hadoop@m2:/home/hadoop/ 
scp -r /home/hadoop/hadoop-2.7.3 hadoop@m3:/home/hadoop/ 
scp -r /home/hadoop/hadoop-2.7.3 hadoop@m4:/home/hadoop/ 


scp -r /home/hadoop/hadoop-2.7.3 hadoop@m5:/home/hadoop/ 
scp -r /home/hadoop/hadoop-2.7.3 hadoop@m6:/home/hadoop/ 


5. 启动 集群 


(1) 格式 化 NameNode。 
在 ml 上 执行 以 下 操作 : 


$ bin/hdfs namenode -format 


请 勿 多 次 格式 化 ， 否 则 会 造成 NameNode 和 DataNode 的 clusterID 
不 一 致 。 如 果 不 小 心 格式 化 了 两 次 或 者 多 次 ， 可 以 将 NameNode 和 
DataNode 对 应 机 器 (ml, m2, m4, m5, m6) 的 hadoop.tmp.dir 指定 的 目 
录 删 除 ， 然 后 再 格式 化 。 


(2) 启动 NameNode。 在 ml 上 执行 命令 ， 并 检查 NameNode 进程 
是 否 启动 成 功 。 


$sbin/hadoop-daemon.sh --script hdfs start namenode 
Sjps 
执行 结果 如 图 2-25 所 示 。 


[hadoop@m1 hadoop-2.7.3]$ sbin/hadoop-daemon.sh --script hdfs start namenode 

starting namenode, logging to /home/hadoop/hadoop-2.7.3/logs/hadoop-hadoop-namenode-ml.out 
[hadoop@m1 hadoop-2.7.3]$ jps 

3343 Jps 

3275 NameNode 


2-25 启动 NameNode 


(3) 启动 DataNode。 在 m4 上 执行 命令 ， 并 检查 m4. m5, m6 上 
的 进程 是 否 启动 成 功 。 


$sbin/hadoop-daemons.sh --script hdfs start datanode 
$jps 

$ssh m5 jps 

$ssh m6 jps 


执行 结果 如 图 2-26 所 示 。 


[hadoopem4 hadoop-2.7.3]$ pwd 

/home/hadoop/hadoop-2.7.3 

[hadoop@m4 hadoop-2.7.3]$ sbin/hadoop-daemons.sh --script hdfs start datanode 
m4: starting datanode, logging to /home/hadoop/hadoop-2.7.3/1l0gs/hadoop-hadoop-d 
m5: starting datanode, logging to /home/hadoop/hadoop-2.7.3/logs/hadoop-hadoop-d 
m6: starting datanode, logging to /home/hadoop/hadoop-2.7.3/logs/hadoop-hadoop-d 
[hadoopem4 hadoop-2.7.3]$ jps 

3096 DataNode 

3170 Jps 

[hadoopem4 hadoop-2.7.3]$ ssh m5 jps 

2606 Jps 

2528 DataNode 

[hadoopem4 hadoop-2.7.3]$ ssh m6 jps 

2611 Jps 

2533 DataNode 


2-26 启动 DataNode 


(4) 启动 全 部 dg 进程。 在 ml 上 执行 命令 ， 并 检查 SecondaryNameNode 

是 否 启 动 成 功 。 

$sbin/start-dfs.sh 

Sjps 

$ssh m2 jps 

执行 结果 如 图 2-27 所 示 。 

前 面 第 (2) 步 和 第 (3) 步 都 可 以 不 做 , 第 (4) 步 会 先 启动 NameNode 
和 DataNode， 按 书 上 这 个 顺序 来 启动 ， 可 以 方便 初学 者 找 出 配置 错误 。 
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[hadoop@m1 hadoop-2.7.3]$ pwd 
/home/hadoop/hadoop-2.7.3 

[hadoop@m1 hadoop-2.7.3]$ sbin/start-dfs.sh 

Starting namenodes on [m1] 

ml: namenode running as process 2581. Stop it first. 
m6: datanode running as process 2533. Stop it first. 
m4: datanode running as process 3096. Stop it first. 
m5: datanode running as process 2528. Stop it first. 
Starting secondary namenodes [m2] 

m2: starting secondarynamenode, logging to /home/hadoop/hadoop-2.7.3/1ogs/hadoop 
-hadoop-secondarynamenode-m2 .out 

[hadoop@m1 hadoop-2.7.3]$ jps 

2581 NameNode 

2931 Jps 

[hadoop@m1 hadoop-2.7.3]$ ssh m2 jps 

2357 SecondaryNameNode 

2402 Jps 


2-27 ”启动 全 部 dfs 进程 


(5) 启动 ResourceManager。 在 m3 上 执行 命令 , 并 检查 ResourceManager 
进程 是 否 启动 成 功 。 


$sbin/yarn-daemon.sh start resourcemanager 
$jps 
执行 结果 如 图 2-28 所 示 。 
[hadoop@m3 hadoop-2.7.3]$ sbin/yarn-daemon.sh start resourcemanager 
starting resourcemanager, logging to /home/hadoop/hadoop-2.7.3/logs/yarn-hadoop- 
resourcemanager-m3.out 
[hadoop@m3 hadoop-2.7.3]$ jps 


2373 ResourceManager 
2408 Jps 


图 2-28 启动 ResourceManager 


(6) 启动 NodeManager。 在 m4, m5, m6 上 执行 命令 ， 并 检查 
NodeManager 进程 是 否 启 动 成 功 。 


$sbin/yarn-daemon.sh start nodemanager 
$jps 


执行 结果 如 图 2-29 所 示 。 


[hadoop@m4 hadoop-2.7.3]$ sbin/yarn-daemon.sh start nodemanager 
starting nodemanager, logging to /home/hadoop/hadoop-2.7.3/logs/yarn-hadoop-node 
manager-m4.out 

[hadoopem4 hadoop-2.7.3]$ jps 

3096 DataNode 

3255 NodeManager 

3305 Jps 


Æ 2-29 启动 NodeManager 


第 〈5) 步 和 第 (6) 步 可 以 合成 一 步 完 成 。 在 m3 上 执行 命令 。 


$sbin/start-yarn.sh 


执行 结果 如 图 2-30 所 示 。 
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[hadoop@m3 hadoop-2.7.3]$ sbin/start-yarn.sh 
starting yarn daemons 

resourcemanager running as process 2373. Stop it first. 

m4: nodemanager running as process 3255. Stop it first. 

m6: starting nodemanager, logging to /home/hadoop/hadoop-2.7.3/logs/yarn-hadoop- 


nodemanager-m6.out 
ms: starting nodemanager, logging to /home/hadoop/hadoop-2.7.3/logs/yarn-hadoop- 


nodemanager-m5.out 


2-30 启动 yarn 
(7) 启动 JobHistory Server。 在 m3 上 执行 命令 。 


$sbin/mr-jobhistory-daemon.sh start historyserver 
Sjps 
执行 结果 如 图 2-31 所 示 。 


[hadoop@m3 hadoop-2.7.3]$ sbin/mr-jobhistory-daemon.sh start historyserver 
starting historyserver, logging to /home/hadoop/hadoop-2.7.3/logs/mapred-hadoop- 
historyserver-m3.out 

[hadoop@m3 hadoop-2.7.3]$ 

[hadoop@m3 hadoop-2.7.3]$ 

[hadoop@m3 hadoop-2.7.3]$ jps 

2373 ResourceManager 

2782 Jps 

2745 JobHistoryServer 


2-31 启动 HistoryServer 


(8) 用 浏览 器 检查 Web 接口 是 否 工作 正常 。 
O NameNode: http:/ml:50070， 如 图 2-32 所 示 。 





Overview 'm1:9000' (active) 





Started: Mon Mar 06 185035 CST 2017 
Version: 27.3, baaenfre6beacbazbessB2dee71gcicaatatccf 
Complled: 2016-08-18T01:41Z by root from branch-2.7.3 
Custer 10: ID-s494db6f-8624-418d-a0f: 208810201047 
Block Pool ID: BP-1666539979-1017.187 101-1489797278589 
Summary 

sSecudly soft 

Safemode k off. 


7 files and directories, 0 blocks = 7 total filesystem objectis). 
Heap Memory used 99.79 MB of 140.5 MB Heap Memory Max Heap Memory is B89 MB 
Non Heap Memory used 3443 MB ot 48.94 MB Commited Non Heap Memory Max Non Heap Memory is 214 MB 


Configured Capacity: 1109268 


DFS Used: 36 K8 (0%) 


Non DFS Used: 131368 


Æ 2-32 NameNode 的 Web 界面 


口 ResourceManager: http://m3:8088， 如 图 2-33 所 示 。 





Hadoop 基础 


Cheba 


+ Cluster Cluster Metrics 











IMEMORYI 


Users Name Application Type Queue StarTime 





+ Tools Showing 0 to 0 of 0 entries 


2-33 ResourceManager 的 Web 界面 


口 JobHistory: http://m3:19888， 如 图 2-34 所 示 。 


(Phere JobHistory 


+ Application Retired Jobs 
FT PER 
* Tools SubmiTime  StatTime © FinshTimes JoblD = Name ° User © Queue ° Ste ?4 
No gata avallable in table 
Showing 0 to 0 of 0 entries 
2-34 JobHistory 的 Web 界面 
(9) 关闭 集群 。 
pe 
在 m3 上 执行 下 面 的 命令 : 


$sbin/stop-yarn.sh 
在 ml 上 执行 下 面 的 命令 : 
$sbin/stop-dfs.sh 


到 此 集群 部 署 完 成 。 


23 Hadoop 常用 命令 


在 Hadoop 的 bin/ 目 录 里 存放 着 用 户 命令 , sbin/ 和 libexec/ 目 录 里 存 
放 着 系统 级 的 命令 。 用 户 命令 用 来 操作 Hadoop 集群 ， 比 如 在 集群 里 创 
建 目录 ， 复 制 文件 等 。 系 统 命令 用 来 管理 Hadoop 集群 ， 比 如 启动 关闭 
NameNode。 其 中 最 常用 的 是 bin/hadoop 和 bin/hdfs。 


2.3.1 APAS 


bin/hadoop 提供 了 很 多 功能 ,比如 文件 操作 、 运 行 MapReduce 程序 
等 ， 下 面 详细 介绍 hadoop 命令 的 用 法 。 
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1. $bin/hadoop 


功能 : 显示 帮助 。 

直接 执行 Hadoop 命令 可 以 显示 帮助 信息 。Hadoop 后 面 不 跟 任 何 参 
数 则 显示 帮助 信息 。Hadoop 命令 后 面 可 以 跟 指 令 或 者 类 的 名 字 。 通 过 
后 续 参 数 ， 实 现 不 同 的 功能 。Hadoop 的 核心 是 用 Java 开发 的 ， 这 里 的 





类 名 也 是 指 Java 的 类 名 。 

$ bin/hadoop 

Usage: hadoop [--config confdin [COMMAND | CLASSNAME] 
CLASSNAME run the class named CLASSNAME 

or 

where COMMAND is one of: 
fs run a generic filesystem user client 
version print the version 
jar <jar> run a jar file 


note: please use "yarn jar" to launch 
YARN applications, not this command. 
checknative [-al-h] check native hadoop and compression libraries availability 
distcp <srcurl> <desturl> copy file or directories recursively 
archive -archiveName NAME -p <parent path> <src>* <dest> create a hadoop 


archive 
classpath prints the class path needed to get the 
credential interact with credential providers 
Hadoop jar and the required libraries 
daemonlog get/set the log level for each daemon 
trace view and modify Hadoop tracing settings 


Most commands print help when invoked w/o parameters. 


2. $bin/hadoop fs [参数 ] 


功能 : 文件 操作 。 
比如 在 集群 中 创建 目录 ， 命 令 如 下 : 


$bin/hadoop fs -mkdir /input3 


在 NameNode 的 Web 界面 确认 目录 是 否 创建 成 功 。 在 集群 里 任意 一 
台 服 务 器 的 浏览 器 里 访问 http:/ml:50070。 然 后 在 主 菜单 中 选择 Utilities 
下 的 Browse the file system， 应 该 可 以 看 到 刚才 创建 的 目录 input3 。 
bin/hadoop fs 可 用 的 常用 参数 列表 如 表 2-3 所 示 。 


表 2-3 fs 常用 命令 

















编 号 命 = 功 能 

-cat path/file 输出 文本 文件 的 内 容 
将 本 地 文件 的 内 容 追 加 到 

2 -appendToFile 本 地 文件 集群 文件 集群 文件 结尾 
3 -copyFromLocal 本 地 文件 集群 文件 | 将 本 地 文件 复制 到 集群 
4 -copyToLocal 集群 文件 本 地 文件 将 集群 文件 复制 到 本 地 
5 -cp 集群 原文 件 集群 目标 文件 复制 集群 文件 
6 -mv 集群 原文 件 集群 目标 文件 移动 或 重 命 名 文件 
7 -ls 路 径 列 出 集群 文件 或 者 目录 
8 -mkdir 路 径 在 集群 中 创建 目录 
9 -setrep [参数 ] [副本 数 ] [路 径 ] 设置 文件 副本 数 





fs 的 一 系列 命令 与 后 面 2.4 小 节 的 hdfs dfs 命令 很 类 似 。fs 涉及 一 
个 通用 的 文件 系统 ， 它 可 以 指向 任何 文件 系统 ， 如 local、HDFS。 fE 
Windows 下 ， 可 以 指向 ntfs、fat32 等 。hdfs dfs 命令 仅 针对 hdfs 操作 。 


3. $bin/hadoop jar [jar 文件 路 径 ] 
功能 : 运行 MapReduce 程序 。 
4. $bin/hadoop version 

功能 : 查看 Hadoop 版 本 。 

5. $bin/hadoop checknative 


功能 : 检查 Hadoop 的 本 地 库 。 

Hadoop 在 运行 过 程 中 需要 用 到 一 些 功能 ， 第 三 方 的 程序 或 者 类 库 
已 经 实现 ， 比 如 文件 压缩 、 对 https 的 支持 等 ,所 以 Hadoop 引入 了 本 地 
Æ (Native Libraries) 的 概念 。 通 过 本 地 库 ，Hadoop 可 以 更 加 高 效 地 执 
行 某 些 操 作 。 比 如 在 文件 压缩 方面 ，Hadoop 使 用 了 zlib 和 bzip2。 本 地 
库 一 般 以 动态 链接 库 的 方式 提供 ， 它 分 32 位 和 64 位 版 本 ， 不 能 混用 。 
本 地 库 的 默认 路 径 在 hadoop/lib/native. Hadoop 默认 加 载 本 地 库 ， 可 通 
过 环境 变量 或 者 配置 文件 修改 是 否 启用 本 地 库 。 


232 ”管理 命令 


$bin/hadoop daemonlog -getlevel <host:httpport> <classname> 


$bin/hadoop daemonlog -setlevel <host:httpport> <classname> <level> 


功能 : 动态 调整 日 志 级 别 。 


Hadoop 在 底层 使 用 Apache 的 开源 项 目 commons-logging、log4j 和 
slf4j 作为 日 志 系统 。 日 志 库 将 日 志 分 为 5 个 级 别 ， 分 别 为 DEBUG, 
INFO, WARN, ERROR 和 FATAL。 这 5 个 级 别 对 应 的 日 志 信息 重要 程 
度 不 同 ， 由 低 到 高 依次 为 DEBUG < INFO < WARN < ERROR < FATAL. 
日 志 输 出 规则 为 : 只 输出 级 别 不 低 于 设 定 级 别 的 日 志 信息 。 比 如 ,级 别 
WEH INFO, Jj INFO, WARN, ERROR 和 FATAL 级 别 的 日 志 信息 都 
会 被 输出 ， 但 级 别 比 INFO 低 的 DEBUG 则 不 会 被 输出 。 

在 Java 程序 中 ， 可 以 为 每 个 类 单独 设置 日 志 输 出 级 别 ， 以 方便 发 
现 程 序 在 运行 过 程 中 出 现 的 异常 。 除 了 使 用 上 面 的 命令 ， 还 可 以 通过 
Web 接口 进行 设置 。Web 地 址 为 http://<hostname>:50070/logLevel。 观 
察 Web 的 端口 ， 可 以 发 现 只 能 在 NameNode 和 SecondaryNameNode 上 
使 用 ， 而 命令 行 可 以 在 所 有 的 服务 器 上 使 用 。 


2.3.3 ”启动 /关闭 命令 


1. $sbin/start-all.sh 

功能 : 启动 集群 所 有 服务 。 

该 命令 已 经 过 时 , 不 推荐 再 使 用 。 可 以 通过 调用 sbin/start-dfs.sh 或 
sbin/start-yarn.sh 来 实现 功能 。 

2. $sbin/start-dfs.sh 


功能 : 启动 dfs。 

该 命令 一 般 在 部 署 NameNode 的 服务 器 上 执行 , 通过 它 可 以 依次 启 
动 NameNode、 全 部 DataNode、SecondaryNameNode。 启 动 集群 时 一 般 
先 启 动 ds， 再 启动 YARN。 关 闭 集群 时 一 般 先 关闭 YARN 再 关闭 dfs。 


3. $sbin/start-yarn.sh 

功能 : 启动 YARN. 

该 命令 一 般 在 部 署 ResourceManager 的 服务 器 上 执行 ， 通 过 它 可 以 
启动 ResourceManager 和 NodeManager。 

4. $sbin/stop-all.sh 

功能 : 关闭 集群 所 有 服务 。 

该 命令 已 经 过 时 ， 不 推荐 再 使 用 。 可 以 通过 调用 sbin/stop-dfs.sh 或 
sbin/stop-yarn.sh 来 实现 功能 。 


5. $sbin/stop-yarn.sh 


功能 : 关闭 YARN. 
该 命令 一 般 在 部 署 ResourceManager 的 服务 器 上 执行 ,通过 它 可 以 
关闭 ResourceManager 和 NodeManager。 


6. $sbin/stop-dfs.sh 


功能 : 关闭 dfs。 
该 命令 一 般 在 部 署 NameNode 的 服务 器 上 执行 , 通过 它 可 以 依次 关 
闭 NameNode、 全 部 DataNode 和 SecondaryNameNode。 


7. $sbin/hadoop-daemon.sh [startlstop] 服务 名 


功能 : 单个 Hadoop 服务 启动 或 者 关闭 。 

该 命令 操作 本 地 服务 器 , 控制 本 地 服务 的 启动 或 者 关闭 。 服 务 名 是 
指 namenode、datanode 和 secondarynamenode。 服 务 名 一 般 全 部 使 用 小 
写字 母 。 


8. $sbin/hadoop-daemons.sh [startlstop] 服务 名 


功能 : 全 部 slaves 上 的 Hadoop 服务 启动 或 者 关闭 。 

该 命令 用 来 操作 slaves 上 的 服务 ， 控 制 远 端 服务 的 启动 或 者 关闭 。 
它 的 原理 是 通过 ssh 访问 etc/hadoop/slaves 文件 里 的 每 一 台 服 务 器 ， 然 
后 在 远 端 调用 sbin/hadoop-daemons.sh 来 控制 服务 。 一 般 用 它 来 关闭 全 
部 的 DataNode， 而 不 用 一 台 一 台地 关闭 。 


9. $sbin/yarn-daemon.sh [start|stop] 服务 名 


功能 : 单个 yarn 服务 的 启动 或 者 关闭 。 

该 命令 操作 本 地 服务 器 ,控制 本 地 服务 的 启动 或 者 关闭 。 服务 名 是 
指 ResourceManager 和 NodeManager。 

10. $sbin/yarn-daemons.sh [startlstop] 服务 名 


功能 : 全 部 slaves 上 的 yarn 服务 启动 或 者 关闭 。 

该 命令 用 来 操作 slaves 上 的 服务 ， 控 制 远 端 服务 的 启动 或 者 关闭 。 
它 的 原理 是 通过 ssh 访问 etc/hadoop/slaves 文件 里 的 每 一 台 服 务 器 ， 然 
后 在 远 端 调用 sbin/yarn-daemons.sh 来 控制 服务 。 一 般 用 它 来 关闭 全 部 
的 NodeManager， 而 不 用 一 台 一 台地 关闭 。 





11. $bin/hdfs secondarynamenode 


功能 : 以 控制 台 的 方式 启动 SecondaryNameNode。 以 控制 台 的 方式 
启动 有 以 下 特点 : 

(1) 启动 过 程 中 显示 日 志 信 息 。 

(2) 程序 在 Shell 中 运行 ， 而 非 在 后 台 运 行 。 

(3) 如 果 关 闭 Shell， 程 序 也 一 起 终止 。 

(4) 程序 运行 过 程 中 和 启动 之 后 可 以 随时 按 【Ctrl+C】 键 终止 。 

该 功能 在 初次 启动 服务 的 时 候 特 别 有 用 ， 可 以 快速 定位 异常 。 

12. $bin/hdfs namenode 

功能 : 以 控制 台 的 方式 启动 NameNode。 

13. $bin/hdfs datanode 


功能 : 以 控制 台 的 方式 启动 DataNode。 


2.4 HDFS 常用 命令 


bin/hdfs 命令 提供 了 丰富 的 功能 ， 包 括 文件 操作 、 集 群 的 维护 等 。 
2.4.1 用户 命令 

对 普通 用 户 来 讲 , 最 常用 的 功能 是 文件 操作 。 该 操作 通过 在 bin/hdfs 
命令 后 面 跟 dfs、fsck 等 参数 来 实现 。 

1. $bin/hdfs 

功能 : 显示 帮助 。 

2. $bin/hdfs dfs [参数 ] 

功能 : 文件 操作 ， 与 Sbin/hadoop fs 的 参数 完全 一 样 。 这 里 不 再 详 
细 介 绍 。 

3. $bin/hdfs namenode -format 

功能 : 格式 化 NameNode。 

4. $bin/hdfs getconf 


功能 : 从 配置 文件 中 获取 配置 信息 ， 该 命令 不 需要 启动 集群 。 
例如 : $bin/hdfs getconf -namenodes， 查 询 集群 中 NameNode 的 名 称 。 


5. $bin/hdfs fsck [路 径 ] [参数 ] 
功能 : 处理 损坏 的 文件 ， 参 数 如 表 2-4 所 示 。 
表 2-4 fsck 参数 
n 能 
输出 损坏 的 文件 及 丢失 的 块 
将 文件 移动 到 /lost+found 目录 
删除 损坏 的 文件 
输出 以 写 方式 打开 的 文件 
输出 该 目录 及 子 目 录 下 所 有 文件 的 状态 
输出 该 目录 及 子 目 录 下 所 有 文件 的 块 信息 


输出 该 目录 及 子 目录 下 所 有 文件 在 DataNode 
的 存储 信息 


输出 该 目录 及 子 目 录 下 所 有 文件 机 架 感知 
信息 





Hadoop 集群 一 般 以 机 架 的 形式 来 组 织 ， 同 一 个 机 架 上 不 同 节点 间 
的 网 络 状况 比 不 同 机 架 之 间 更 为 理想 ， 默 认 情况 下 Hadoop 的 机 架 感 知 
没有 启用 。 所 有 的 机 器 都 默认 在 同一 个 机 架 下 ， 名 称 为 /default-rack， 
这 种 情况 下 ， 任 何 一 台 DataNode 机 器 ， 不 管 物理 上 是 否 属于 同一 个 机 
架 ， 都 被 认为 是 在 同一 个 机 架 下 。 


6. $bin/hdfs getconf [参数 ] 


功能 : 同 $bin/hadoop getconf。 


24.2 ”管理 命令 


1. $bin/hdfs dfsadmin -report 

功能 : 查看 HDFS 的 基本 统计 信息 。 

2. $bin/hdfs dfsadmin -safemode <enter | leave | get | wait> 

功能 : 配置 安全 模式 。 

安全 模式 是 NameNode 的 一 种 状态 , 在 安全 模式 下 文件 不 能 被 修改 ， 
不 能 复制 、 删 除 文件 块 。 进 入 安全 模式 一 般 是 为 了 对 集群 进行 维护 。 比 
如 : 增加 DataNode， 或 者 在 多 个 DataNode 之 间 进 行 负载 平衡 等 。 进 入 
安全 模式 后 ， 在 NameNode 的 Web 接口 页 面 可 以 看 到 Safe mode is ON 
的 字样 。 当 NameNode 启动 的 时 候 ， 自 动 进 入 安全 模式 ， 如 果 没 有 故障 ， 





会 自动 离开 安全 模式 。 如 果 手 动 进 入 了 安全 模式 ， 也 只 能 手动 离开 安全 
模式 。 


3. $bin/hdfs dfsadmin -saveNamespace 


功能 : 将 内 存 信息 保存 到 磁盘 ， 并 重 置 edits 文件 。 
该 命令 只 能 在 安全 模式 下 使 用 。 


4. $bin/hdfs dfsadmin - refreshNodes 


功能 : 刷新 节点 和 排除 文件 。 
该 命令 会 强迫 NameNode 重新 加 载 hosts 和 排除 文件 ， 让 新 的 
DataNode 或 者 断 开 的 DataNode 重新 连接 NameNode。 


5. $bin/hdfs dfsadmin - setBalancerBandwidth [byte per second] 
功能 : 设置 负载 均衡 带宽 。 

6. $bin/hdfs secondarynamenode [参数 ] 

功能 : 操作 SecondaryNameNode， 可 用 参数 见 表 2-5, 


表 2-5 hdfs secondarynamenode 参数 





编 S 功 能 
1 手工 触发 检查 点 功能 
2 启动 时 格式 化 本 地 空间 
3 获取 edits 文件 大 小 


SecondaryNameNode 并 不 是 Hadoop 的 第 二 个 NameNode， 它 不 提 
供 NameNode 服务 ， 而 仅仅 是 NameNode 的 一 个 工具 。 这 个 工具 帮助 
NameNode 管理 Metadata 数据 。 它 定时 到 NameNode 去 获取 fsimage 和 
edits 文件 ， 并 更 新 到 本 地 fsimage 上 。 一 旦 创建 了 新 的 fsimage 文件 ， 
它 将 其 复制 回 NameNode 中 。NameNode 在 下 次 重启 时 会 使 用 这 个 新 的 
fsimage 文件 ， 从 而 减少 重启 的 时 间 。 


7. $bin/hdfs balancer 


功能 : 平衡 集群 中 DataNode 的 数据 。 集 群 非常 容易 出 现 机 器 与 机 
器 之 间 磁 盘 利 用 率 不 平衡 的 情况 ， 比 如 集群 中 添加 新 的 数据 节点 。 当 
HDFS 出 现 不 平衡 状况 的 时 候 , 将 引发 很 多 问题 ,比如 MapReduce 程序 
无 法 很 好 地 利用 本 地 计算 的 优势 , 机 器 之 间 无 法 达到 更 好 的 网 络 带宽 使 
用 率 等 。 该 命令 与 $sbin/start-balancer.sh 功能 一 样 。 区 别 是 前 者 以 控制 
台 方 式 运行 ， 后 者 以 服务 方式 运行 。 
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目的 


理解 Hadoop 的 体系 架构 。 

掌握 NameNode + SecondaryNameNode 的 部 署 方式 。 
掌握 Hadoop 常用 命令 。 

掌握 运行 MapReduce 程序 的 方法 。 

掌握 简单 动态 增加 集群 DataNode 的 方法 。 


实验 要 求 


口 完成 Hadoop 集群 部 署 前 环境 的 准备 工作 。 
O 能够 将 本 地 文件 存储 到 集群 中 。 
O 能够 从 集群 中 下 载 文件 到 本 地 。 
实验 步骤 
(1) 创建 一 个 3 个 节点 的 集群 ， 一 个 NameNode ， 一 个 
SecondaryNameNode， 一 个 DataNode， 文 件 副本 数 为 1。 每 台 服 务 器 剩 
余 可 用 空间 大 于 10GB. 
(2 ) 准备 一 个 不 小 于 10MB 的 文本 文件 , 文件 格式 参考 图 2-9， 将 
其 上 传 到 集群 中 。 
(3 ) 运行 MapReduce 程序 share/hadoop/mapreduce/hadoop-mapreduce- 
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examples-2.7.3.jar。 

(4) 将 MapReduce 运行 的 结果 下 载 到 本 地 ， 并 验证 结果 是 否 正确 。 

(5) 将 第 (2) 步 上 传 的 文本 文件 从 集群 中 删除 ， 将 第 (3) 步 运 
行 的 输出 文件 从 集群 中 删除 。 

(6) 在 集群 中 上 传 一 个 不 小 于 4GB 的 文件 ， 用 命令 查询 该 文件 的 
副本 数 。 

(7) 修改 集群 配置 文件 ， 设 置 文件 副本 数 为 2， 重 启 集群 。 观 察 
之 前 上 传 的 文件 副本 数 是 否 有 变化 。 

(8) 修改 集群 配置 文件 ， 在 集群 中 增加 一 台 DataNode。 重 启 集 
群 ， 用 命令 行 验证 两 台 DataNode 是 否 加 载 成 功 ， 观 察 两 台 DataNode 
剩余 可 用 空间 。 

(9) 设置 之 前 上 传 文件 的 副本 数 为 2， 然 后 观察 两 台 DataNode 的 
剩余 可 用 空间 。 
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习题 2 


1. 简 述 Hadoop 的 三 种 部 署 方式 。 

2. 简 述 单机 SSH 免 密 码 登录 的 配置 方式 。 

3. 简 述 两 台 机 器 间 SSH 免 密 码 登录 时 ， 用 两 对 公私 钥 来 管理 和 配 
置 的 步骤 。 

4. 简 述 Hadoop 三 大 核心 组 件 的 功能 。 

5. 查阅 资源 ， 学 习 Hadoop 集群 HA 和 HA 加 Federaion 的 配置 方法 。 


参考 文献 


[1] Hadoop 官方 网 站 http://hadoop.apache.org/, 2017. 
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Hadoop 数据 库 HBase 


HBase 是 Hadoop Database 的 简写 ， 是 一 种 分 布 式 可 伸缩 大 数据 存 
储 系统 。 

2006 年 Google 发 表 论 文 Bigtable: A Distributed Storage System for 
Structured Data, HBase 正 是 按照 该 论文 思想 设计 开发 的 基于 Hadoop 
和 HDFS 的 大 数据 系统 ， 它 和 BigTable 一 样 采用 了 分 布 式 、 版 本 化 、 
非 关 系 型 数据 库 模 型 , 其 目标 是 能 够 通过 通用 的 硬件 集群 系统 对 数 十 亿 
行 、 数 百 万 列 以 上 级 别 的 大 表 进 行 存储 和 处 理 。HBase 于 2008 年 成 为 
Apache 的 Hadoop 项 目的 开源 子 项 目 , 2010 年 5 月 , HBase 脱离 Hadoop 
项 目 ， 成 为 Apache 顶级 项 目 ， 其 后 发 展 非常 迅速 ， 经 过 多 个 版 本 的 演 
化 和 不 断 改进 ， 目 前 产品 已 趋 成 熟 ， 成 为 主流 的 大 数据 库 系 统 之 一 ， 在 
大 数据 处 理 领 域 得 到 广泛 应 用 。 

本 章 对 HBase 进行 较为 系统 全 面 的 介绍 ， 内 容 包 括 HBase 的 体系 
架构 和 数据 模型 ，HBase 的 三 种 部 署 方法 : 单 节点 部 署 、 伪 分 布 式 部 署 
和 集群 部 署 ，HBase 的 主要 配置 文件 和 常用 配置 参数 ，HBase Shell 的 常 
用 命令 ， 在 HBase 中 进行 模式 设计 的 准则 和 主要 设计 属性 ， 以 及 HBase 
的 安全 配置 与 数据 访问 权限 控制 。 通过 本 章 的 学 习 和 实验 , 读者 可 以 熟 
悉 HBase 集群 从 规划 、 部 署 、 配 置 到 管理 、 使 用 的 全 过 程 。 


3.1 HBase 简介 
3.1.1 体系 架构 
HBase 集群 采用 Master/Slave 主 从 架构 ， 主 节点 运行 的 服务 称 为 


HMaster， 从 节点 服务 称 为 HRegionServer， 通 过 ZooKeeper 在 服务 器 错 
误 时 进行 协调 ,底层 采用 HDFS 存储 数据 。HBase 集群 体系 架构 如 图 3-1 
所 示 。 





3-1 HBase 体系 架构 


1. HMaster 


HMaster 是 HBase 集群 的 管理 者 ， 负 责 管理 多 个 HRegionServer， 
并 负责 表 (Table) 和 区 域 (Region) 的 管理 、 对 用 户 数据 请 求 的 响应 。 
它 的 具体 任务 包括 : 

口 将 Region 分 配给 HRegionServer。 

O 协调 HRegionServer 的 负载 。 

口 维护 集群 的 状态 ， 发 现 失效 的 HRegionServer 并 重新 分 配 其 上 

的 Region。 

口 维护 表 和 Region 的 元 数据 。 

口 管理 用 户 对 表 的 增 、 删 、 改 、 查 操作 。 

O GFS 上 的 垃圾 文件 回收 。 

口 处 理 Schema 更 新 请 求 。 

由 于 HBase 客户 端 直接 和 HRegionServer 通信 ， 进 行 数据 的 读 写 ， 
普通 操作 并 不 需要 HMaster 参与 ， 所 以 HMaster 失效 短 时 间 内 HBase 
集群 仍 可 继续 工作 ,但 由 于 HMaster 负责 集群 的 故障 切换 、HRegion $F 
分 、 管理 操 作 接 口 等 关键 功能 ， 所 以 HMaster 一 旦 失效 需要 尽快 启动 以 
避免 发 生 集群 故障 。 

HBase 集群 最 多 可 以 配置 10 个 HMaster， 从 而 避免 HMaster 发 生 
单 点 故障 。 通 过 ZooKeeper 的 Master Election 机 制 来 保证 任何 时 刻 只 有 





一 个 HMaster 在 运行 。 
2. HRegion 和 HRegionServer 


HBase 在 存储 表 数 据 时 自动 按 行 键 (rowkey) 将 表 分 成 很 多 块 进行 
存储 ， 每 一 块 称 为 一 个 HRegion。 如 图 3-1 所 示 ， 每 个 HRegion 由 一 个 
或 多 个 Store 组 成 ,每 个 Store 保存 表 中 一 个 列 族 的 数据 ,由 此 可 见 HBase 
是 按 列 存储 的 。 每 个 Store 由 一 个 MemStore 和 若干 个 StoreFile 组 成 ， 
MemStore 保存 在 内 存 中 ，StoreFile 的 底层 实现 则 是 以 HFile 的 形式 存 
储 在 HDFS 上 。 

HRegionServer 负责 管理 本 服务 器 上 的 HRegions， 处 理 对 HRegion 的 
VO 请 求 。 如 图 3-1 所 示 ， 一 台 服 务 器 上 一 般 只 运行 一 个 HRegionServer， 
每 个 HRegionServer 管理 多 个 HRegion。 每 台 HRegionServer 上 有 一 个 
HLog 文件 ， 记 录 该 HRegionServer 上 所 有 HRegion 的 数据 更 新 操作 ， 
当 该 HRegionServer 发 生 故 障 时 ，HLog 文件 可 用 于 灾难 备份 。 

每 张 表 最 初 只 有 一 个 HRegion， 当 客户 端 进行 数据 更 新 操作 时 ， 先 
连接 有 关 的 HRegionServer， 由 其 向 HRegion 提交 变更 ， 提 交 的 数据 会 
首先 写 入 HLog 和 MemStore 中 ， 当 MemStore 中 的 数据 累计 到 设 定 的 
BB IF, HRegionServer 会 启动 一 个 单独 的 线程 ， 将 MemStore 中 的 内 
容 保存 到 磁盘 上 , 生成 一 个 新 的 StoreFile。 当 StoreFile 文件 的 数量 增长 
到 设 定 值 后 , 就 会 将 多 个 StoreFile 合并 成 一 个 StoreFile, 合并 时 会 进行 
版 本 合并 和 数据 删除 。 注 意 HBase 平时 一 直 在 增加 数据 ， 所 有 的 更 新 
和 删除 操作 都 是 在 后 续 的 合并 过 程 中 进行 的 。 当 HRegion 中 单个 
StoreFile 大 小 超过 设 定 的 闵 值 时 ，HRegionServer 会 将 该 HRegion 拆 分 
为 两 个 新 的 HRegion, 并且 报 告 给 主 服务 器 ， 由 HMaster 来 分 配 由 哪些 
HRegionServer 来 存放 新 产生 的 两 个 HRegion， 最 后 ， 旧 的 HRegion 不 
再 需要 时 会 被 删除 。 反 过 来 ， 当 两 个 HRegion 足够 小 时 ，HBase 也 会 将 
它们 合并 。 

HRegion 是 HBase 表 数 据 存储 分 配 的 最 小 单位 ， 一 张 表 的 所 有 
HRegion 会 分 布 在 不 同 的 HRegionServer 上 ， 但 一 个 HRegion 内 的 数据 
只 会 存储 在 一 个 HRegionServer 上 。 

3. Client 

Client 端 有 访问 HBase 的 接口 ,并 通过 缓存 来 加 快 对 HBase 的 访问 。 
它 使 用 HBase 的 RPC 机 制 与 HMaster 和 HRegionServer 进行 通信 : 对 


于 管理 类 操作 , Client 与 HMaster 进行 通信 ;对 于 数据 读 写 类 操作 , Client 
与 HRegionServer 进行 通信 。 
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4. ZooKeeper 


ZooKeeper 是 一 个 开放 源码 的 分 布 式 应 用 程序 协 管 员 ， 主 要 用 于 解 
决 分 布 式 应 用 中 经 常 遇 到 的 统一 命名 服务 、 状 态 同步 服务 、 集 群 管理 、 
配置 项 管理 等 问题 。HBase 安装 包 中 含有 内 置 ZooKeeper， 也 可 以 使 用 
独立 安装 的 ZooKeeper。 
HBase 集群 中 的 ZooKeeper 主要 有 如 下 作用 : 
口 解决 HMaster 的 单 点 故障 问题 。HBase 中 可 以 启动 多 达 10 个 
HMaster， 通 过 ZooKeeper 的 Master Election 机 制 保 证 任何 时 
刻 只 有 一 个 HMaster 在 运行 。 
口 ZooKeeper 实时 监控 HRegionServer 的 上 、 下 线 信 息 并 及 时 通 
知 HMaster， 若 有 HRegionServer 前 演 可 以 通过 ZooKeeper 来 
进行 分 配 协 调 。 
口 ZooKeeper 中 存储 了 -ROOT- 表 的 地 址 、HMaster 的 地 址 、 
HRegionServer 地 址 .HBase 的 Schema 和 表 的 元 数据 , 当 Client 
连接 到 HBase 时 , 需 首先 访问 ZooKeeper 以 获取 这 些 核心 数据 。 


5. 元 数据 


前 面 已 经 介绍 过 ， 用 户 表 被 按 行 键 分 割 成 不 同 的 HRegion 来 保存 ， 
通过 HRegion ID 来 区 分 不 同 的 HRegion， 所 有 的 HRegion ID 及 其 映射 
信息 组 成 了 HRegions 元 数据 ， 用 户 表 的 HRegions 元 数据 被 存储 
在 .META. 表 中 ， 该 表 在 HBase 中 也 以 HRegion 的 形式 来 进行 存储 。 随 
着 .META. 表 中 数据 的 增多 ， 它 也 会 被 拆 分 成 多 个 HRegion 来 保 
存 , .META. 表 中 各 个 HRegion ID 及 其 映射 信息 组 成 了 HBase 的 -ROOT 
表 ， 由 ZooKeeper 来 记录 -ROOT- 表 的 位 置信 息 。-ROOT- 表 永远 不 会 被 
分 割 且 只 有 一 个 HRegion, 这 样 可 以 保证 经 过 三 次 跳 转 就 可 以 定位 到 任 
意 一 个 HRegion: 客户 端 访问 用 户 数据 时 ， 首 先 访 问 ZooKeeper 获得 
-ROOT- 表 的 位 置 ， 然 后 访问 -ROOT- 表 获得 .META. 表 的 位 置 ， 最 后 根 
据 .META. 表 中 的 信息 确定 用 户 数据 存放 的 位 置 ， 如 图 3-2 所 示 。 


3.1.2 ”数据 模型 


1. 基本 术语 


HBase 中 数据 以 表 的 形式 存储 ， 表 包含 行 和 列 ， 这 里 借用 了 关系 数 
据 库 的 术语 ， 但 实际 上 HBase 中 的 表 和 关系 数据 库 是 有 很 大 区 别 的 ， 
下 面 来 具体 解读 一 下 HBase 中 的 常用 术语 。 











3-2 HRegion 定位 示意 图 


表 (Table): HBase 中 的 表 由 若干 行 组 成 。 

行 (Row): HBase 中 表 的 一 行 由 一 个 行 键 和 若干 个 列 名 到 值 的 映 
射 组 成 。 表 的 各 行 是 按照 行 键 的 字母 顺序 存放 的 , 因此 行 键 的 设计 非常 
重要 , 应 该 设计 成 让 彼此 有 关联 的 行 的 行 键 相 邻 , 这样 它们 存放 的 位 置 
也 会 相 邻 。 举 例 来 说 ， 如 果 以 域名 作为 行 键 ， 可 以 考虑 将 域名 的 各 段 顺 
序 倒 过 来 ， 即 将 www.baidu.com 存 为 com.baidu.www， 这 样 所 有 百度 的 
子 域名 (如 map.baidu.com、news.baidu.com) 在 表 中 都 会 存放 在 一 起 ， 
而 不 是 分 散在 表 中 的 各 个 地 方 。 

列 (Column): HBase 中 的 每 一 列 都 属于 某 一 列 族 ， 列 名 称 由 < 列 
族 名 >:< 列 修饰 符 > 组 成 ， 如 person:name, person 是 列 族 名 ，name 是 该 
列 的 列 修饰 符 。 

列 族 (Column Family): HBase 表 在 存储 上 是 按 列 族 存 储 的 ， 将 一 
张 表 同一 列 族 下 的 所 有 列 及 其 值 存 储 在 一 起 以 便 达 到 更 好 的 性 能 。 每 一 
个 列 族 还 附带 有 存储 属性 ， 如 是 否 要 在 内 存 中 缓存 、 数 据 如 何 压缩 、 行 
键 如 何 编 码 等 等 。 表 中 的 每 一 行 都 有 相同 的 列 族 , 但 某 一 行 可 能 在 某 一 
列 族 中 没有 存放 任何 内 容 。 

PAIF (Column Qualifier): 列 修饰 符 加 在 列 族 名 的 后 面 用 于 表 
示 某 一 列 。 尽管 一 张 表 有 哪些 列 族 在 表 创 建 时 已 经 固定 下 来 , 但 每 一 列 
族 下 都 可 以 有 任意 多 的 列 修饰 符 ， 并 且 每 一 行 都 可 以 有 不 同 的 列 修饰 





符 ， 非 常 灵活 。 

单元 (Cell): HBase 中 通过 行 键 、 列 族 、 列 修饰 符 的 组 合 定位 到 一 
个 单元 ， 每 个 单元 保存 着 多 个 版 本 的 数据 ， 即 多 个 带 有 时 间 戳 的 值 ， 时 
间 戳 代表 了 值 的 版 本 。 单 元 中 的 值 以 字 节 码 的 形式 存储 ， 没 有 类 型 之 分 。 

WHEE (Timestamp): HBase 中 保存 的 每 个 值 都 带 有 一 个 时 间 惟 ， 
以 时 间 戳 作为 值 的 版 本 标识 。 默 认 情况 下 使 用 写 数据 时 HRegionServer 
的 系统 时 间作 为 值 的 时 间 惟 ,精确 到 毫秒 。 也 可 以 在 写 数据 时 显 式 指定 
时 间 戳 的 值 。 


2. 概念 视图 


可 以 将 HBase 中 的 表 看 作 是 一 个 多 维 映射 关系 ， 通 过 行 键 + 列 + 时 
间 惟 就 可 以 映射 到 数据 值 。 表 3-1 给 出 了 一 张 员工 信息 表 的 概念 视图 示 
例 ， 该 例 列 出 了 表 的 两 行 数据 ， 行 键 分 别 为 C000001 和 C000002， 有 三 
个 列 族 : basicinfo, performance 和 package， 行 C000001 有 三 个 版 本 ， 
行 C000002 有 两 个 版 本 ， 每 个 版 本 对 应 了 对 该 行 数据 的 一 次 修改 ， 时 
间 截 越 大 表示 版 本 越 新 ,第 一 行 在 t6 版 本 中 增加 了 列 performance:y2015 
和 列 package:bonus, 修改 了 列 package:salary 的 值 , 在 t9 版 本 中 增加 了 
列 performance:y2016， 修 改 了 列 basicinfo:position、 列 package:salary 
和 列 package:bonus 的 值 ， 第 二 行 则 在 t7 版 本 中 增加 了 列 performance: 
y2016。 从 表 中 可 以 看 出 每 一 行 所 包含 的 列 可 以 不 一 样 ， 而 同一 行 也 可 
以 在 新 版 本 中 随时 增加 不 同 的 列 。 也 可 以 看 到 HBase 表 的 很 多 单元 是 
没有 值 的 ， 所 以 说 HBase 表 是 一 个 稀疏 的 多 维 映射 表 。 
表 3-1 HBase 表 概 念 视图 示例 
行 键 列 族 basicinfo 列 族 performance | 列 族 package 
package:salary 





basicinfo:position= performance:y2016 |="15000" 
"Tenical manager" ="A" package:bonus 
="20000" 
package:salary 
performance:y2015 | ="13000" 
= "B" package:bonus 
="10000" 





C000001 





basicinfo:name=" 张 三 " 


basicinfo:gender=" 男 " 
basicinfo:birthyear="1978" 
basicinfo:position="Senior 


package:salary 
="12000" 








engineer" 








行 键 ”| Pilis) gk 列 族 basicinfo 列 族 performance | 列 族 package 





performance:y2016 
= "c" 





basicinfo:name=" 李 四 " 
C000002 basicinfo:gender=" 男 " 


ackage:salar 
basicinfo:birthyear="1986" P a u 


="8000" 


basicinfo:position= 








"Engineer" 


除了 通过 上 述 表 格 的 形式 来 表示 Hbase 数据 之 外 , 还 可 以 用 其 他 形 
式 来 表示 ， 例 如 上 表 中 的 数据 也 可 以 表示 为 下 面 的 多 维 映射 关系 : 


"C000001": ( 
basicinfo: ( 
t9: basicinfo:position="Tenical manager" 
t3: basicinfo:name=" 张 三 ", basicinfo:gender=" 男 "， 
basicinfo:birthyear= "1978", basicinfo:position="Senior engineer" 
) 
performance: ( 
t9: performance:y2016= "A" 
t6: performance:y2015= "B" 
h 
package: ( 
t9: package:salary="15000", package:bonus="20000" 
t6: package:salary="13000", package:bonus="10000" 
t3: package:salary="12000" 
) 
} 
" C000002": { 
basicinfo: { 
t4: basicinfo:name=" 李 四 ", basicinfo:gender=" R", 
basicinfo:birthyear= "1986", basicinfo:position="Engineer 
h: 
performance: ( 
t7: performance:y2016= "C" 
) 
package: ( 
t4: package:salary="8000" 
} 
} 
1 





3. 物理 视图 

在 概念 视图 中 表 以 行 的 形式 展现 , 而 在 物理 存储 时 表 是 以 列 族 的 形 
式 存 储 的 , 新 的 列 ( 列 族 : 列 修饰 符 ) 可 以 随时 加 入 到 已 存在 的 列 族 中 。 
表 3-1 概念 视图 所 对 应 的 物理 视图 如 表 3-2 所 示 。 
表 3-2 HBase 表 物 理 视图 示例 
时 间 # 列 族 basicinfo 


basicinfo:position="Tenical manager 


行 


g 





basicinfo:name=" 张 三 " 
C000001 basicinfo:gender=" 男 " 
basicinfo:birthyear="1978" 
basicinfo:position="Senior engineer" 
basicinfo:name=" 李 四 " 
basicinfo:gender=" 男 " 
basicinfo:birthyear="1986" 
basicinfo:position="Engineer" 


fr 键 时 间 # 列 族 performance 


C000002 


000091 t9 performance:y2016= "A" 
performance:y2015= "B" 
C000002 performance:y2016= "C" 
行 键 时 间 # 列 族 package 
package:salary="15000" 
package:bonus="20000" 
C000001 package:salary="13000" 
package:bonus="10000" 
t3 package:salary="12000" 
C000002 t package:salary="8000" 


AR 3-2 中 可 以 看 出 , 在 概念 视图 中 出 现 的 空 单元 实际 上 在 物理 视 
图 中 并 没有 保存 , 例如 要 访问 时 间 截 t6 下 C000002 的 basicinfo:position 
列 时 , 因为 查 不 到 该 单元 将 返回 空 值 null。 如果 不 指定 时 间 惟 访问 数据 ， 
将 返回 该 单元 的 最 新 时 间 戳 的 值 ， 即 该 单元 的 第 一 个 值 ， 因 为 在 一 个 单 
元 中 的 多 个 版 本 数据 是 按照 时 间 戳 的 降序 保存 的 。 因 此 ,如 果 不 指定 时 
间 惟 访问 C000001 的 所 有 列 ， 将 会 返回 t9 版 本 的 basicinfo:position、 
performance:y2016, package:salary 和 package:bonus， 返 回 t6 版 本 的 
performance:y2015， 返 回 t3 版 本 的 basicinfo:name, basicinfo:gender 和 
baslicinfo:birthyear。 
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3.1.3 ”主要 特性 


HBase 作为 NoSQL 数据 库 ， 不 具备 很 多 关系 数据 库 的 特性 ， 比 如 
列 类 型 定义 、 索 引 存 储 、 触 发 器 、 高 级 查询 语言 等 ， 但 是 由 于 它 是 分 布 
式 数 据 库 ， 具 有 良好 的 可 伸缩 性 ， 通 过 增加 安装 在 普通 商用 服务 器 上 的 
HRegionServers， 可 以 很 容易 地 扩充 为 几 十 个 、 数 百 个 节点 的 集群 ， 从 
而 具备 超 强 的 对 大 数据 的 存储 和 处 理 能 力 。 而 像 Oracle RAC 这 种 关系 
数据 库 集群 系统 往往 需要 专业 存储 设备 或 者 专门 的 硬件 一 体 机 , 集群 中 
的 节点 数量 也 不 能 过 多 。 
HBase 还 有 以 下 比较 显著 的 特性 。 
口 强 读 写 一 致 性 :HBase 不 像 某 些 大 数据 系统 仅 支持 最 终 一 致 性 ， 
因此 它 很 适合 于 需要 高 速 计数 的 、 聚 合 统计 类 的 任务 。 
O ”自动 分 片 ，HBase 表 以 HRegins 的 形式 分 布 在 整个 集群 中 ， 
HRegions 随 着 表 数 据 的 增长 自动 进行 拆 分 和 重新 分 布 。 
口 HRegionServer 自动 故障 切换 : 当 集 群 中 有 HRegionServer 发 生 故 
障 时 ， 系 统 将 其 上 的 数据 和 任务 自动 分 配 到 其 他 HRegionServer。 
口 Hadoop/HDFS 集成 : HBase 使 用 HDFS 作为 其 分 布 式 文件 系统 
存储 数据 。 
口 MapReduce 集成 :HBase 支持 通过 MapReduce 对 其 数据 进行 高 
并 发 处 理 ， 并 将 结果 存 回 到 HBase 中 。 
O Java 客户 端 API: HBase 提供 易于 使 用 的 Java API 编程 接口 。 
O Thrift/REST API: HBase 也 提供 Thrift 和 REST 接口 。 
口 “ 块 缓存 和 布 隆 过 滤 (Bloom Filters): HBase 支持 通过 块 缓存 和 
布 隆 过 滤 来 进行 大 数据 量 实 时 查询 优化 。 
O 操作 管理 : HBase 提供 内 置 的 Web 页 面 , 页 面 上 可 以 反映 出 系 
统 所 执行 的 具体 操作 及 JMX 矩阵 。 





3.2 HBase 部 署 
3.2.1 准备 工作 


本 节 将 介绍 三 种 HBase 部 署 方 式 : 单 节 点 部 署 、 伪 分 布 式 部 署 和 
集群 部 署 。 前 两 种 部 署 方式 主要 用 于 学 习 目 的 , 生产 环境 上 都 应 该 采用 
集群 部 署 。 

HBase 集群 部 署 需要 准备 多 台 服 务 器 , 单 节点 部 署 和 伪 分 布 式 部 署 
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只 要 一 台 服 务 器 就 够 了 ,操作 系统 一 般 采 用 主流 版 本 的 Linux 操 作 系 统 。 

因为 HBase 的 底层 存储 采用 HDFS，HBase 的 集群 部 署 需 要 先 部 署 

Hadoop 集群 ， 而 单 节点 部 署 和 伪 分 布 式 部 署 也 可 以 不 使 用 HDFS， 仅 

使 用 本 地 的 文件 系统 进行 存储 。 

HBase 集群 对 安装 和 运行 环境 的 基本 要 求 如 下 。 

口 JDK 安装 : HBase 1.2、1.3 版 本 对 JDK7 和 JDK8 都 支持 ， 更 

早 版 本 的 HBase 则 建议 安装 JDK7。 

O ssh: HBase 的 所 有 节点 包括 自身 都 必须 能 被 主 节点 和 所 有 备份 

主 节点 通过 ssh 免 密 码 连 接 访 问 。 第 2 章 中 已 介绍 建立 ssh 免 

密码 访问 的 方法 。 

O DNS: HBase 使 用 本 地 机 器 名 来 获取 IP 地 址 , 因此 必须 有 DNS 
对 本 地 机 器 名 进行 解析 和 反 解 析 。 一 个 比较 简单 的 方法 是 将 集 
群 中 所 有 节点 的 机 器 名 与 IP 地 址 的 映射 关系 保存 到 每 个 节点 
的 /etc/hosts 文件 中 。 

口 NTP: HBase 的 各 节点 之 间 必 须 保持 时 钟 同步 ， 如 果 节 点 之 间 
的 时 间 差 异 比较 大 ， 会 造成 难以 预期 的 异常 行为 。 比 较 常用 的 
保持 节点 间 时 钟 同步 的 方法 是 安装 运行 NTP (Network Time 
Protocol) 服务 。 

O ulimit 配置 : 可 以 通过 ulimit -n 和 ulimit -u 命令 查看 操作 系统 
当前 用 户 允 许 同时 打开 的 文件 数 和 进程 数 , 对 于 运行 HBase 的 
用 户 来 说 ， 建 议 这 两 个 配置 值 都 不 小 于 10000。 不 同 的 Linux 
版 本 配置 ulimit 的 方法 有 所 不 同 ， 需 要 根据 具体 的 OS 版 本 查 
找 相应 的 配置 方法 。 

口 Linux Shell: HBase 中 的 脚本 需要 在 GNU Bash Shell 下 运行 ， 
因此 OS 需要 支持 GNU Bash Shell。 

口 Hadoop: HBase 集群 部 署 必 须 先 安装 Hadoop，HBase 1.2、1.3 
支持 的 Hadoop 版 本 有 Hadoop 2.4.x、2.5.x、2.6.1+ 和 2.7.1+。 
Hadoop 集群 的 安装 方法 在 本 书 第 2 章 中 已 经 介绍 ， 但 需要 加 
上 以 下 两 项 额外 步 又。 

+ fE Hadoop 各 节点 的 配置 文件 hdfs-site xml 中 加 上 dfs.datanode. 
max.transfer.threads 配置 项 ， 表 示 HDFS 数据 节点 可 以 同 
时 服务 的 文件 数 上 限 ， 配 置 值 不 小 于 4096， 格 式 如 下 : 
<property> 
<name>dfs.datanode.max.transfer.threads</name> 


<value>4096</value> 
</property> 





信 HBase 安装 后 的 lib 子 目录 下 自 带 了 一 套 Hadoop 的 jar 包 ， 
以 供 单 节点 部 署 使 用 ， 如 果 是 集群 部 署 ， 或 者 伪 分 布 式 部 
署 ， 但 要 使 用 HDFS 时 ， 则 在 HBase 安装 后 ， 必 须 将 其 
lib 子 目 录 下 的 这 套 Hadoop 的 jar 包 蔡 换 为 实际 使 用 的 
Hadoop 版 本 的 jar 包 ， 和 否则 版 本 不 匹配 会 导致 难以 预期 的 
系统 故障 。 
口 ZooKeeper: 可 以 使 用 HBase 安装 包 中 自 带 的 ZooKeeper， 也 
可 以 独立 安装 ZooKeeper 供 HBase 使 用 ， 注 意 必 须 安装 3.4.x 
版 本 。 


3.2.2 音节 点 部 署 


准备 工作 完成 后 ， 部 署 前 首先 要 下 载 HBase 安装 包 ， 可 以 到 官方 
网 址 http:/Wwww.apache.org/dyn/closercgi/hbase/ 上 选择 稳定 的 HBase 版 
本 下 载 安装 包 ， 本 章 内 容 所 使 用 的 版 本 是 HBase 1.2.4， 下 载 的 安装 包 
文件 名 为 hbase-1.2.4-bin.tar.gz。 

单 节 点 部 署 的 安装 步骤 如 下 。 

(1) 选 定 安装 目录 ， 执 行 如 下 命令 解压 HBase 安装 包 : 


[root@client local]# tar xzvf hbase-1.2.4-bin.tar.gz 


命令 执行 后 安装 包 中 的 文件 全 部 被 解压 到 hbase-1.2.4 子 目录 下 。 
(2) 在 HBase 配置 文件 conf/hbase-env.sh 中 配置 JAVA_HOME。 
这 里 仍 使 用 第 2 章 中 已 经 安装 好 的 JDK,JAVA_HOME 为 /etc/alternatives/ 
jre_1.7.0_openjdk， 在 hbase-env.sh 中 找到 如 下 行 : 


# export JAVA_HOME=/usr/java/jdk1.6.0/ 
将 其 修改 为 : 
export JAVA_HOME=/etc/alternatives/jre_1.7.0_openjdk 


(3) 在 HBase 配置 文件 conf/hbase-site.xml 中 增加 如 下 内 容 ， 配 置 
HBase 和 ZooKeeper 用 于 写 数 据 的 目录 ， 因 为 是 单 节 点 部 署 ， 应 配置 为 本 
地 文件 系统 目录 ， 该 目录 如 不 存在 ，Hbase 会 自动 创建 。 配 置 示例 如 下 : 


<configuration> 
<property> 
<name>hbase.rootdir</name> 
<value>file:///data/hbase</value> 
</property> 
<property> 





<name>hbase.zookeeper.property.dataDir</name> 
<value>/data/zookeeper</value> 


</property> 
</configuration> 
在 下 面 步骤 (4) 中 ，HBase 启动 之 后 会 自动 创建 目录 /data/hbase 
和 /data/zookeeper。 如 果 没 有 在 配置 文件 中 指定 hbase.rootdir， 其 默认 值 
为 file:///tmp/hbase-$ fusername}/hbase。 由 于 一 般 在 操作 系统 重启 后 /tmp 
目录 内 容 会 被 自动 清除 ， 所 以 不 要 使 用 默认 配置 。 
(4) 至 此 HBase 单 节 点 部 署 完毕 ， 可 执行 脚本 bin/start-hbase.sh 
启动 HBase， 启 动 后 可 以 通过 jps 命令 查看 HBase 是 否 启动 成 功 ， 如 启 
动 成 功 会 显示 HMaster 进程 。start-hbase.sh 脚本 和 jps 命令 的 执行 结果 
如 图 3-3 所 示 。 


[rooc@client hbase-1.2.4]# bin/start-hbase.sh 

starting master, logging to /root/hbase-1.2.4/bin/../logs/hba 
se-root-master-client.out 

[root@client hbase-1.2.4]# jps 

6974 HMaster 

8021 Jps 

[root@client hbase-1.2.4]# 


3-3 音节 点 部 署 启动 HBase 


HBase 安装 好 之 后 也 可 以 访问 网 址 http://<host>:16010 来 查看 其 状 
态 ， 其 中 <host> 为 安装 HBase 的 服务 器 名 ,需要 通过 DNS 进行 解析 或 将 
其 替换 为 IP 地址 。Web 页 面 上 显示 HBase 的 运行 状况 ， 如 图 3-4 所 示 。 
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可 以 通过 bin/hbase shell 命令 进入 HBase Shell 进行 建 表 、 插 入 数 
据 、 查 询 数 据 等 各 种 数据 库 操作 ，HBase Shell 的 具体 命令 格式 将 在 3.4 
车 介绍 。 

执行 脚本 bin/stop-hbase.sh 可 停止 HBase， 结 果 如 图 3-5 所 示 。 


[root@client hbase-1.2.4]# bin/stop-hbase.sh 
和 T E E 
[root@client hbase-1.2.4]# 


3-5 停止 HBase 


3.2.3 ” 伪 分 布 式 部 署 


在 单 节点 部 署 时 HBase 的 所 有 功能 都 是 在 一 个 JVM 进程 实例 中 完 
成 的 ， 伪 分 布 式 部 署 是 指 HBase 虽然 还 是 仅 安装 在 一 台 服 务 器 上 ， 但 启 
动 了 多 个 守护 进程 ,分 别 承担 不 同 的 功能 角色 : HMaster、HRegionServer 
和 ZooKeeper。 默 认 状 况 下 HMaster、HRegionServer、ZooKeeper 各 有 
一 个 进程 在 运行 。 

在 伪 分 布 式 部 署 时 ， 可 以 使 用 服务 器 的 本 地 文件 系统 存储 HBase 
数据 ， 也 可 以 用 HDFS 存储 数据 。 假 定 已 经 按 3.2.2 节 中 的 方法 完成 了 
HBase 的 单 节点 部 署 ， 并 且 该 节点 也 是 Hadoop 集群 的 主 节点 ， 端 口号 
为 8020, 下面 给 出 将 HBase 单 节点 部 署 改 为 伪 分 布 式 部 署 并 改 用 HDFS 
存储 数据 的 具体 步骤 : 

(1) 停止 HBase。 

执行 脚本 bin/stop-hbase.sh， 停 止 HBase 运行 。 注 意 由 于 下 面 要 更 
改 HBase 的 目录 到 HDFS 上 ， 原 来 在 单 节点 HBase 上 创建 的 数据 库 将 
会 丢失 。 

(2) 修改 配置 。 

在 HBase 配置 文件 conf/hbase-site.xml 中 增加 hbase. cluster.distributed 
配置 项 并 修改 hbase.rootdir 的 配置 值 为 HDFS 目录 ， 示 例如 下 : 

<property> 

<name>hbase.cluster.distributed</name> 
<value>true</value> 

</property> 

<property> 

<name>hbase.rootdir</name> 
<value>hdfs://localhost:8020/hbase</value> 
</property> 


hbase.cluster.distributed 配置 为 true 表示 Hbase 以 分 布 式 模式 运行 ， 
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hdfs://localhost:8020/hbase 表示 HDFS 运行 在 本 机 的 8020 端口 , 当 Hbase 
启动 后 会 自动 在 HDFS 中 创建 目录 /hbase， 请 不 要 手动 创建 该 目录 。 
(3) 启动 HBase。 
假设 Hadoop 已 经 启动 ， 那 么 Hbase 的 启动 和 单 节 点 部 署 时 一 样 ， 
执行 脚本 bin/start-hbase.sh 来 启动 Hbase, 启动 成 功 后 执行 jps 命令 可 以 
看 到 HMaster 进程 和 HRegionServer 进程 ， 如 图 3-6 所 示 。 


[root@client hbase-1.2.4]# bin/start-hbase.sh 

localhost: starting zookeeper, logging to /root/hbase-1.2.4/b 
in/../logs/hbase-root-zookeeper-client.out 

starting master, logging to /root/hbase-1.2.4/bin/../logs/hba 
se-root-master-client.out 

starting regionserver, logging to /root/hbase-1.2.4/bin/../lo 
gs/hbase-root-1-regionserver-client.out 

[root@client hbase-1.2.4]# jps 

16321 SecondaryNameNode 

16098 DataNode 

16932 HQuorumPeer 

17042 HMaster 

17561 Jps 

15942 NameNode 

17241 HRegionServer 

[root@client hbase-1.2.4]# 


3-6 ” 伪 分 布 式 部 署 启动 Hbase 


(4) 检查 HBase 目录 。 

HBase 第 一 次 启动 时 会 在 HDFS 中 创建 目录 , 按照 前 面 的 配置 应 该 
创建 /hbase 目录 ， 下 面 用 Hadoop 的 fs 命令 查看 /hbase 下 有 哪些 内 容 ， 
如 图 3-7 所 示 。 

[root@client hbase-1.2.4]# hadoop fs -13 /hbase 
17/08/12 23:18:01 NRRN util.NativeCodeLoader: Unable to load native-hadoop libra 


ry for your platform... using builtin-java classes where applicable 
Found 7 items 


drwxr-xr-x - root supergroup 0 2017-08-12 23:15 /hbase/.tmp 

drwxr-xr-x  - root supergroup 0 2017-08-12 23:15 /hbase/MasterProcWALs 

drwxr-xr-x - root supergroup 0 2017-08-12 23:14 /hbase/WALs 

drwxr-xr-x - root supergroup 0 2017-08-12 23:15 /hbase/data 

-rw-r--r-- 1 root supergroup 42 2017-08-12 23:14 /hbase/hbase.id 

-rw-r--r-- 1 root supergroup 7 2017-08-12 23:14 /hbase/hbase.version 
- 0 


drwxr-xr-x root supergroup 2017-08-12 23:14 /hbase/oldWALs 


[root@client hbase-1.2.4]# 
图 3-7 查看 HDFS 中 /hbase 目录 内 容 


(5) 启动 和 停止 备用 HMaster。 

因为 伪 分 布 式 部 署 时 备用 HMaster 和 主 HMaster 在 同一 台 服 务 器 
E, ADAH HMaster 并 没有 实际 意义 ， 但 可 以 方便 学 习 和 测试 。 通 
过 bin/local-master-backup.sh 脚本 即 可 启动 多 个 备用 HMaster， 命 令 示 


例如 下 : 


[root@client hbase-1.2.4]# bin/local-master-backup.sh start 1 4 9 


上 述 命令 启动 了 三 个 备用 HMaster， 相 对 于 主 HMaster 端口 号 的 偏 
移 量 分 别 是 1、4、9。, 每 个 HMaster 需要 使 用 3 个 端口 ,默认 的 主 HMaster 
端口 号 是 16010、16020 和 16030, 因 此 上 述 命 令 启 动 的 三 个 备用 HMaster 
分 别 使 用 以 下 三 组 端口 号 : 16011/16021/16031、16014/16024/16034、 
16019/16029/16039。 端 口号 偏 移 量 的 范围 为 1~9, 所 以 最 多 可 以 启动 9 
个 备用 HMaster。 访 问 Web 页 面 http://<host>:16010 可 以 看 到 有 三 个 
Backup Masters 。 

停止 备用 HMaster 仍然 通过 bin/local-master-backup.sh 脚本 来 操作 ， 
以 下 命令 即 可 停止 端口 号 偏 移 量 为 4 和 9 的 两 个 备用 HMaster: 


[root@client hbase-1.2.4]# bin/local-master-backup.sh stop 4 9 


(6) 启动 和 停止 更 多 HRegionServers。 
通常 在 HBase 集群 的 一 个 节点 上 仅 运行 一 个 HRegionServer， 但 在 
伪 分 布 部 署 时 可 以 在 一 个 节点 上 启动 多 个 HRegionServer 来 模拟 集群 环 
境 进 行 测 试 。 通 过 bin/local- regionservers.sh 脚本 来 启动 额外 的 
HRegionServer， 示 例如 下 : 


[root@client hbase-1.2.4]# bin/local-regionservers.sh start 2 3 4 


上 述 命令 启动 了 三 个 额外 的 HRegionServer， 其 端口 号 偏 移 量 分 别 
是 2、3、4。 每 个 HRegionServer 需要 使 用 两 个 端口 ， 端 口 偏 移 量 参数 
是 相对 于 端口 16200 和 16300 的 偏 移 量 ,默认 启动 的 HRegionServer 使 
用 的 端口 号 是 16201 和 16301， 只 要 端口 号 未 被 使 用 ， 就 可 以 用 于 启动 
新 的 HRegionServer。 上 述 命令 启动 的 HRegionServer 分 别 使 用 以 下 三 
组 端口 号 : 16202/16302、16203/16303、16204/16304。 

通过 bin/local-master-backup.sh 也 可 以 停止 HRegionServer， 以 下 命 
令 停 止 端 口号 偏 移 量 为 2 和 3 的 两 个 HRegionServer: 


[root@client hbase-1.2.4]# bin/local-regionservers.sh stop 2 3 


部 署 完毕 后 ， 即 可 进入 HBase Shell 进行 各 种 数据 库 操作 ，HBase 
Shell 的 具体 命令 格式 将 在 3.4 节 中 介绍 。 


3.2.4 ”集群 部 署 


在 生产 系统 中 需要 将 HBase 部 署 在 多 台 服 务 器 节点 组 成 的 分 布 式 





集群 环境 中 , 每 台 节点 上 运行 一 个 或 多 个 HBase 守护 进程 , 但 一 般 同类 
型 的 进程 每 台 节 点 上 只 运行 一 个 。 整 个 集群 包括 一 个 主 HMaster 进程 、 
多 个 备用 HMaster 进程 、 若 干 个 ZooKeeper 进程 和 若干 个 HRegionServer 
进程 。 

下 面 以 4 台 Linux 虚拟 机 master, slavel, slave2, slave3 组 成 的 集 
群 为 例 介 绍 HBase 的 集群 部 署 步骤 ， 这 四 台 节 点 之 间 必 须 能 通过 网 络 
访问 并 且 没 有 设置 任何 软 硬 件 防火 墙 ， 满 足 3.2.1 节 中 列 出 的 对 HBase 
集群 运行 环境 的 基本 要 求 .例如 必须 先 部 署 好 Hadoop 集群 ,假设 master 
服务 器 是 Hadoop 集群 的 主 节点 (NameNode), 端口 号 是 8020，slavel、 
slave2、slave3 是 Hadoop 集群 的 DataNode 等 。 这 4 台 节 点 的 部 署 计划 
如 表 3-3 所 示 。 


表 3-3 HBase 集群 部 署 架构 示例 


机 器 名 称 aster egionServer ooKeeper 


master 
slavel 





HBase 在 该 集群 上 的 部 署 按照 以 下 几 大 步骤 进行 。 
1. 建立 ssh 免 密 码 访问 


第 2 章 中 已 具体 介绍 建立 ssh 免 密 码 访问 的 方法 ， 在 此 不 再 袭 述 。 

集群 的 四 个 节点 中 任 一 节点 都 要 建立 和 其 他 三 个 节点 以 及 其 自身 
之 间 的 免 密 码 访问 ， 和 否则 集群 启动 、 停 止 等 很 多 脚本 将 不 能 正常 执行 。 
例如 master 要 建立 和 master 自身 以 及 slavel, slave2, slave3 之 间 的 免 
密码 访问 。 

2. 部 署 master 


按照 规划 , master 服务 器 上 要 部 署 主 HMaster 进程 和 ZooKeeper 进 
程 ， 但 不 运行 HRegionServer 进程 ， 步 又 如 下 : 
(1) 安装 HBase。 
按照 3.2.3 节 中 列 出 的 步骤 在 master 上 进行 HBase 的 伪 分 布 式 部 
署 ， 但 配置 文件 conf/hbase-site.xml 中 的 配置 内 容 应 作 如 下 改动 : 
<configuration> 


<property> 
<name>hbase cluster.distributed</name> 


<value>true</value> 
</property> 
<property> 
<name>hbase.rootdir</name> 
<value>hdfs://master:8020/hbase</value> 
</property> 
</configuration> 
与 3.2.3 节 中 相 比 ， 应 将 hdfs://localhost:8020/hbase 更 改 为 
hdfs://master:8020/hbase， 这 是 因为 整个 集群 的 每 台 服 务 器 上 都 需要 使 
用 该 配置 文件 。 注意 为 了 能 按照 机 器 名 访问 服务 器 , 需要 在 每 台 服 务 器 
的 /etc/hosts 文件 中 给 出 master, slavel, slave2, slave3 所 对 应 的 IP 地 
址 ， 下 文中 不 再 袭 述 。 
在 master 上 安装 好 HBase 后 不 要 启动 ， 如 果 已 经 启动 HBase， 则 
将 其 停止 。 
(2) 配置 HRegionServer。 
修改 配置 文件 conf/regionservers， 该 文件 配置 了 在 哪些 服务 器 上 运 
行 HRegionServer 进程 ， 原 有 内 容 是 localhost， 将 其 改 为 如 下 内 容 : 
slave1 


slave2 
slave3 


即使 仍然 希望 在 master 上 运行 HRegionServer， 也 需要 将 配置 文件 
中 的 localhost 更 改 为 master， 因 为 这 是 整个 集群 , 每 台 服 务 器 上 都 需要 
使 用 的 配置 文件 。 
(3) 配置 备用 HMaster。 
创建 配置 文件 conf/backup-masters， 该 配置 文件 配置 了 哪些 服务 器 
上 运行 备用 HMaster， 编 辑 文件 内 容 如 下 : 


slave1 


(4) 配置 ZooKeeper。 
修改 配置 文件 conffhbase-site xml, 在 <configuration> 中 增加 如 下 配置 : 


<property> 
<name>hbase.zookeeper.quorum</name> 
<value>master,slave2,slave3</value> 

</property> 

<property> 
<name>hbase.zookeeper.property.dataDir</name> 
<value>/data/zookeeper</value> 

</property> 





上 述 配置 表示 在 master、slave2 和 slave3 上 运行 HBase 安装 包 自 带 
的 ZooKeeper 实例 ，ZooKeeper 的 数据 目录 为 /data/zookeeper, 该 目录 将 
在 HBase 启动 时 自动 创建 ， 但 启动 HBase 的 用 户 必须 有 /data 目录 的 操 
作 权 限 。 注 意 在 <value></value> 中 的 配置 值 不 能 有 空格 。 


3. 部 署 slave1、slave2、slave3 


按照 规划 ，slavel 上 要 运行 备用 HMaster 进程 和 HRegionServer 进 
程 ，slave2 和 slave3 上 要 运行 HRegionServer 进程 和 ZooKeeper 进程 ， 
虽然 运行 的 进程 有 区 别 , 但 其 完全 是 通过 配置 文件 来 定义 的 , 它们 的 部 
署 方法 都 一 样 ， 步 又 如 下 : 
(1) 下 载 解压 HBase 安装 包 。 
按照 3.2.2 节 中 的 步骤 下 载 HBase 安装 包 并 解压 到 相应 目录 。 
(2) 复制 配置 文件 。 
将 master 上 conf/ 目 录 下 的 所 有 配置 文件 复制 到 slavel、slave2 和 
slave3 的 conf/ 目 录 下 ,覆盖 同名 文件 。 可 通过 scp 命令 进行 复制 ,示例 
如 下 : 


[root@master hbase-1.2.4]# scp -r conf root@slave1:/usr/local/hbase-1.2.4/ 


4. 启动 、 测 试 HBase 集群 


至 此 已 经 部 署 完毕 ， 可 以 启动 HBase 集群 进行 测试 了 。 可 以 按 如 
下 步骤 启动 和 测试 HBase 集群 : 

(1) 在 每 个 节点 上 执行 jps 命令 确保 都 没有 启动 HBase 进程 ， 如 
REIMA HMaster、HRegionServer 或 HQuorumpPeer 进程 ， 用 kill 命令 
杀 掉 它们 。 

(2) 在 master 上 执行 bin/start-hbase.sh 脚本 来 启动 集群 。 该 脚本 执 
行 后 集群 中 每 个 节点 都 会 按照 配置 启动 相应 的 进程 ， 执 行 结果 如 图 3-8 
所 示 。 

ZooKeeper 最 先 启动 , 然后 启动 HMaster, 接着 启动 HRegionServer， 
最 后 启动 备用 HMaster。 

(3) 检查 每 个 节点 上 的 进程 是 否 启动 。 在 每 个 节点 上 执行 jps 命 
令 检查 启动 的 进程 ，master 上 应 该 有 HMaster 和 HQuorumPeer 进程 ， 
slavel 上 应 该 有 HRegionServer 和 HMaster 进程 ，slave2 和 slave3 上 应 
该 有 HRegionServer 和 HQuorumPeer 进程 。 注 意 如 果 使 用 HBase 安装 
包 中 自 带 的 ZooKeeper， 则 其 进程 名 为 HQuorumPeer， 而 如 果 使 用 独立 
安装 的 ZooKeeper， 则 其 进程 名 为 QuorumPeer。 
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[root@master hbase-1.2.4]# bin/start-hbase.sh 

master: starting zookeeper, logging to /root/hbase-1.2.4/bin/ 
. ./1ogs/hbase-root-zookeeper-master.out 

slave3: starting zookeeper, logging to /root/hbase-1.2.4/bin/ 
. ./1ogs/hbase-root-zookeeper-slave3.out 

slave2: starting zookeeper, logging to /root/hbase-1.2.4/bin/ 
. ./1logs/hbase-root-zookeeper-slave2.out 

starting master, logging to /root/hbase-1.2.4/logs/hbase-root 
-master-master.out 

slavel: starting regionserver, logging to /root/hbase-1.2.4/b 
in/../logs/hbase-root-regionserver-slavel.out 

slave3: starting regionserver, logging to /root/hbase-1.2.4/b 
in/../logs/hbase-root-regionserver-slave3.out 

slave2: starting regionserver, logging to /root/hbase-1.2.4/b 
in/../logs/hbase-root-regionserver-slave2.out 

slavel: starting master, logging to /root/hbase-1.2.4/bin/../ 
logs/hbase-root-master-slavel .out 

[root@master hbase-1.2.4]# 
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(4) 检查 Web 界面 。 启 动 成 功 之 后 ， 可 以 访问 网 址 http://master: 
16010 来 查看 HBase 集群 状态 ， 注 意 需 要 通过 hosts 文件 将 master 解析 
为 IP 地 址 。 

(5) 模拟 故障 测试 。 可 以 发 现 上 面 HBase 集群 部 署 方 案 中 每 类 节点 
都 至 少 在 两 台 服 务 器 上 部 署 ， 这 是 为 了 避免 单 点 故障 。 在 实际 生产 环境 中 
还 可 以 部 署 更 多 的 备用 HMaster 节点 、ZooKeeper 节点 和 HRegionServer 
节点 ， 从 而 有 更 高 的 可 用 性 。 现 在 ， 可 以 模拟 某 个 节点 出 故障 的 情况 ， 
例如 杀 掉 (kill) master 上 的 HMaster 进程 ， 这 时 候 http://master:16010 
无 法 访问 了 ,但 访问 http://slave1:16010 会 发 现 slavel 上 的 备用 HMaster 
进程 已 经 升级 为 主 HMaster, HBase 集群 依然 正常 工作 。 同 样 , 杀 掉 (kill) 
一 个 HRegionServer 进程 也 不 影响 整个 集群 。 

杀 掉 (kill) master 上 的 HMaster 进程 后 ， 可 以 通过 执行 bin/hbase- 
daemon.sh 脚本 再 启动 HMaster 进程 , 但 启动 后 其 将 作为 备用 HMaster。 
命令 格式 如 下 : 


[root@master hbase-1.2.4]# bin/hbase-daemon.sh start master 


3.2.5 ”版 本 升级 


HBase 版 本 号 从 1.0.0 开始 采用 语义 化 版 本 (Semantic Versioning) 
规范 ,版 本 号 的 格式 为 : 主 版 本 号 .小 版 本 号 .补丁 版 本 号 ， 其 含义 如 下 。 
口 ERES: 当 包 含 了 不 兼容 的 API 修改 时 需 增加 主 版 本 号 。 

O 小 版 本 号 : 当 添 加 了 向 后 兼容 的 功能 时 增加 小 版 本 号 。 


口 ”补丁 版 本 号 : 当 包含 了 向 后 兼容 的 错误 修正 时 增加 补丁 版 本 号 。 

口 为 预 发 布 或 开发 管理 等 目的 , 还 可 以 在 补丁 版 本 号 后 面 增加 更 
多 层级 编号 。 例 如 前 面部 署 的 HBase 版 本 号 为 1.2.4， 其 主 版 
本 号 是 1， 小 版 本 号 是 2， 补 丁 版 本 号 是 4。 

HBase 的 版 本 升级 有 三 种 情况 : 主 版 本 升级 、 小 版 本 升级 和 补丁 版 

本 升级 ， 它 们 对 其 上 运行 的 应 用 程序 有 不 同 的 影响 ， 总 结 如 下 : 

O 补丁 版 本 升级 对 应 用 程序 无 影响 ， 可 以 安全 升级 。 

D 小 版 本 升级 不 需要 应 用 程序 和 客户 端 改 动 程序 代码 ,但 如 果 升 

级 时 更 新 了 HBase 库 中 的 .jar 文件 ， 而 程序 代码 又 依赖 于 改动 

过 的 .jar 文件 ， 则 需要 对 代码 用 新 的 .jar 文件 进行 重新 编译 。 

O 主 版 本 升级 不 能 保证 API 兼容 性 ,一 般 来 说 应 用 程序 代码 需要 
针对 新 的 HBase 版 本 进行 测试 修改 ， 应 谨慎 进行 。 

如 果 对 HBase 集群 进行 主 版 本 升级 ， 需 要 先 将 整个 集群 停 掉 ， 然 

后 在 每 台 服 务 器 上 安装 新 版 本 HBase 并 进行 配置 ， 最 后 再 启动 新 版 本 

的 HBase 集群 。 对 HBase 集群 的 小 版 本 或 补丁 版 本 升级 ， 由 于 保持 了 

协议 兼容 性 ， 可 以 不 停 掉 集 群 ， 以 滚动 升级 〈Rolling Upgrade) 的 方式 

进行 。 简 单 地 说 ， 滚 动 升级 是 指 每 台 服 务 器 依次 升级 : 先 停 掉 一 台 服 务 

器 上 的 HBase 进程 ， 升 级 软件 后 再 启动 该 节点 ， 再 依次 升级 其 他 服务 

器 。 一 般 是 先 升级 HMaster 服务 器 节点 ， 再 升级 HRegionServer 服务 器 

节点 。 下 面 以 从 HBase 1.1.2 版 本 升级 到 HBase 1.2.4 版 本 为 例 介 绍 滚动 

升级 的 具体 步骤 。 

(1) 下 载 解压 HBase 1.2.4 安装 包 , 在 每 台 服 务 器 上 解压 到 新 的 目 
录 ， 假 设 目录 为 /usr/local/hbase-1.2.4。 

(2) 修改 /usr/local/hbase-1.2.4/conf 下 的 配置 文件 , 将 1.1.2 版 本 的 
配置 文件 中 的 内 容 复制 到 1.2.4 版 本 的 配置 文件 中 。 因 为 是 在 做 版 本 升 
级 ， 应 沿用 原来 HBase 1.1.2 下 的 配置 。 

(3) 在 /usr/local/hbase-1.2.4/bin 下 执行 滚动 重启 脚本 rolling-restart.sh, 
格式 如 下 : 


[root@master hbase-1.2.4]# HBASE_HOME=/usr/local/hbase-1.2.4 ./rolling 
-restart.sh --config /usr/local/hbase-1.2.4/conf 


在 命令 前 面 设置 了 新 的 HBASE_HOME 路 径 , 所 以 在 每 个 节点 重启 
进程 时 将 启动 1.2.4 版 本 的 HBase 进程 。 执 行 结果 如 图 3-9 所 示 。 

可 以 看 到 该 脚本 首先 停止 master 上 的 HMaster 进程 ， 停 止 slavel 
上 的 HMaster 进程 ， 然 后 在 master 上 启动 1.2.4 版 本 的 HMaster 进程 ， 








T 
J 


1 
w 
中 


Æ Hadoop 数据 库 HBase 


在 slavel 上 启动 1.2.4 版 本 的 HMaster 进程 ， 接 着 停止 slavel 上 的 
HRegionServer 进程 ， 启 动 1.2.4 版 本 的 HRegionServer 进程 ， 再 依次 重 
启 slave2 和 slave3 上 的 HRegionServer 进程 。 访 问 http://master:16010 
也 可 以 发 现 各 节点 版 本 号 已 经 更 改 为 1.2.4。 


[root@master bin]# HBASE HOME=/usr/local/hbase-1.2.4 ./rollin 
g-restart.sh --config /usr/local/hbase-1.2.4/conf 

stopping master. 

slavel: stopping master. 

Waiting for Master ZNode /hbase/master to expireNode does not 
exist: /hbase/master 


starting master, logging to /usr/local/hbase-1.2.4/logs/hbase 
-root-master-master.out 

slavel: starting master, logging to /usr/local/nbase-1.2.4/bi 
n/../logs/hbase-root-master-slavel.out 

Wait a minute for master to come up join cluster 

Waiting for /hbase/region-in-transition to emptyslavel: stopp 
ing regionserver.... 

slavel: starting regionserver, logging to /usr/local/hbase-1. 
2.4/bin/../logs/hbase-root-regionserver-slavel.out 

slave2: stopping regionserver......... 

slave2: starting regionserver, logging to /usr/local/hbase-1. 
2.4/bin/../logs/hbase-root-regionserver-slave2.ocut 

slave3: stopping regionserver......... 

slave3: starting regionserver, logging to /usr/local/hbase-1. 
2.4/bin/../logs/hbase-root-regionserver-slave3.out 
[root@master bin]# 


图 3-9 滚动 重启 HBase 集群 
(4) 升级 完成 ， 可 删除 原来 1.1.2 版 本 安装 目录 下 的 文件 。 


3.3 HBase 配置 
3.3.1 配置 文件 


HBase 的 所 有 配置 文件 都 放 在 conf/ 子 目录 下 ， 包 含 如 下 7 个 配置 
文件 。 


1. hbase-site.xml 


这 是 HBase 最 主要 的 配置 文件 ， 上 一 节 中 已 经 设置 过 一 些 hbase- 
site.xml 中 的 主要 配置 项 ， 如 hbase.cluster.distributed, hbase.rootdir 等 ， 
本 节 中 还 将 介绍 其 他 常用 的 配置 项 。 没 有 在 该 配置 文件 中 设置 的 配置 项 
则 使 用 默认 值 。 

该 配置 文件 必须 是 xml 格式 ,建议 使 用 能 识别 xml 格式 的 编辑 器 来 
对 其 进行 修改 ， 便 于 确保 其 符合 xml 格式 要 求 。 也 可 以 在 修改 后 用 
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xmllint 命令 来 检查 其 是 否 符合 xml 格式 要 求 ， 命 令 使 用 方法 如 下 : 


[root@master hbase-1.2.4]# xmllint -noout hbase-site.xml 


2. hbase-env.sh 


该 配置 文件 设置 了 HBase 运行 所 需 的 工作 环境 ， 如 上 节 中 设置 过 
的 JAVA_HOME, 此 外 还 包括 堆 大 小 、 垃 圾 回收 配置 等 Java 选项 .HBase 
的 配置 文件 目录 、 日 志 目录 、ssh 选项 、pid 文件 路 径 等 其 他 环境 设置 。 
默认 的 配置 文件 中 提供 了 很 多 注释 , 介绍 各 配置 项 的 含义 并 指导 用 户 应 
如 何 进 行 配置 。 注 意 在 Windows 系统 下 使 用 的 配置 文件 名 是 hbase- 


env.cmd 。 

3. backup-masters 

上 节 介 绍 集群 部 署 时 创建 过 该 配置 文件 , 它 列 出 了 哪些 服务 器 应 启 
动 备用 HMaster 进程 。 该 配置 文件 为 纯 文 本 格式 , 每 个 服务 器 单独 一 行 。 
如 果 找 不 到 该 配置 文件 或 文件 内 容 为 空 则 不 启动 备用 HMaster。 

4. regionservers 

上 节 介 绍 集群 部 署 时 修改 过 该 配置 文件 , 它 列 出 了 哪些 服务 器 启动 
HRegionServer 进程 。 该 配置 文件 为 纯 文本 格式 , 每 个 服务 器 单独 一 行 。 
默认 时 仅 有 一 行 localhost， 应 改 为 需要 启动 HRegionServer 的 机 器 名 或 
IP 地 址 。 

5. hbase-policy.xml 

这 是 PRC 服务 器 对 客户 端 请 求 进行 权限 验证 时 使 用 的 策略 配置 文 
件 , 仅 当 启用 HBase 安全 管理 (hbase.security.authorization 设置 为 true) 
时 才 使 用 ， 已 进行 默认 设置 ， 一 般 不 需要 改动 。 

6. log4j.properties 

这 是 HBase 所 使 用 的 日 志 模 块 log4j 的 配置 文件 ,已 进行 默认 设置 ， 
一 般 不 需要 改动 。 

7. hadoop-metrics2-hbase.properties 


该 配置 文件 将 HBase 集群 与 Hadoop 的 Metrics2 框架 相关 联 , 可 用 
于 实时 收集 HBase 集群 的 各 类 监控 信息 。 默 认 时 该 文件 仅 包含 被 注释 
掉 的 内 容 。 Hadoop 的 Metrics2 框架 不 在 本 书 讨论 范围 内 。 
注意 上 述 7 个 HBase 配置 文件 的 路 径 和 内 容 在 每 个 节点 上 都 必须 
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一 致 ， 因 此 在 修改 一 个 配置 文件 后 , 应 立即 将 其 复制 到 集群 中 的 所 有 其 
他 节点 上 ， 可 以 用 scp 命令 来 进行 文件 传输 。 除 了 少数 动态 配置 之 外 ， 
其 他 配置 修改 之 后 必须 重启 HBase 集群 才能 生效 。 


3.3.2 ”主要 配置 项 


HBase 的 配置 项 比较 多 , 但 大 多 数 配 置 项 使 用 默认 值 即 可 。 下 面 介 
绍 hbase-site.xml 文件 中 的 一 些 主要 配置 项 。 


1. hbase.cluster.distributed 


该 参数 配置 了 HBase 是 单 节点 运行 模式 还 是 分 布 式 运行 模式 ， 默 
认 值 是 false。 如 果 是 分 布 式 部 署 则 应 将 其 设置 为 true。 


2. hbase.tmp.dir 


该 参数 配置 了 HBase 节点 在 本 地 文件 系统 中 的 临时 目录 ， 默 认 值 
为 ${java.io.tmpdir}/hbase-$ {user.name}， 在 Linux 系统 中 java.io.tmpdir 
默认 是 /tmp， 如 果 以 root 用 户 登 录 启 动 HBase， 则 该 参数 的 默认 值 为 
/tmp/hbase-root。 因 为 /tmp 目录 在 系统 重启 后 会 清空 ， 应 将 该 参数 设置 
为 其 他 永久 目录 。 


3. hbase.rootdir 


该 参数 配置 了 HBase 保存 文件 的 根 目录 ， 要 注意 该 参数 配置 值 中 
需要 加 上 文件 传输 协议 和 网 络 访问 地 址 作为 前 缀 , 如 为 本 地 文件 系统 则 
加 上 file:// 前 缀 ， 如 为 HDFS 则 加 上 hdfs://<HDFS name node>:<port 
number> 作 为 前 级 ,可 参见 3.2 节 中 的 配置 示例 。 其 默认 值 为 $ (hbase.tmp. 
dir}/hbase， 即 参数 hbase.tmp.dir 配置 值 的 hbase 子 目 录 , 一 般 应 对 该 参 
数 进 行 设置 而 不 使 用 默认 值 。 注意 一 旦 更 改 该 配置 值 ，HBase 重启 生效 
后 原来 的 数据 会 丢失 , 相当 于 一 个 没有 任何 数据 的 新 系统 , 应 谨慎 修改 。 

4. hbase.fs.tmp.dir 

该 参数 配置 了 HBase 集群 在 HDFS 文件 系统 中 保存 临时 数据 的 中 
转 目 录 ， 默 认 值 是 /user/$ {user.name}/hbase-staging。 该 配置 仅 在 分 布 式 
运行 模式 下 使 用 , 注意 该 参数 和 hbase.rootdir 不 同 的 是 配置 值 不 需要 加 
HDFS 的 网 络 访问 地 址 作为 前 级 ,而 是 自动 使 用 hbase.rootdir 中 的 HDFS 
网 络 访问 地 址 。 


5. hbase.local.dir 


该 参数 配置 了 HBase 节点 在 本 地 文件 系统 中 用 于 本 地 存储 的 目录 ， 


默认 值 为 ${hbase.tmp.dir}/local， 即 参数 hbase.tmp.dir 配置 值 的 local F 
目录 。 


6. hbase.zookeeperquorum 


该 参数 值 配置 了 哪些 服务 器 上 运行 ZooKeeper 进程 , 配置 值 是 以 逗 
号 分 隔 的 服务 器 列表 , 参见 3.2 节 中 的 配置 示例 。 其 默认 值 为 localhost, 
默认 值 可 以 在 伪 分 布 式 部 署 时 使 用 , 在 集群 部 署 时 则 必须 更 改 为 计划 运行 
ZooKeeper 的 服务 器 列表 。 如 果 HBase 集群 使 用 的 是 自 带 的 ZooKeeper， 
那么 在 启动 、 停 止 HBase 集群 时 也 会 按照 该 配置 值 启动 、 停 止 相应 服 
务 器 上 的 HQuorumPeer 进程 。 客 户 端 连接 HBase 集群 时 也 是 根据 该 配 
置 值 找 到 ZooKeeper 服务 器 ， 然 后 连接 到 HBase 集群 的 。 


7. hbase.zookeeper.property.dataDir 


该 参数 配置 了 ZooKeeper 用 于 保存 数据 的 目录 ， 默 认 值 为 ${hbase. 
tmp.dir}/zookeeper， 即 参数 hbase.tmp.dir 配置 值 为 zookeeper 子 目 录 。 


8. hbase.zookeeper.property.maxClientCnxns 


该 参数 配置 了 每 个 ZooKeeper 服务 器 允许 接受 的 客户 端 并 发 连接 
数量 ， 默 认 值 为 300。 可 以 根据 可 能 的 客户 端 并 发 连接 数量 来 设置 该 参 
数 ， 大 多 数 情况 下 默认 值 已 经 够 了 。 


9. zookeeper.session.timeout 


该 参数 配置 了 ZooKeeper 会 话 的 超时 时 间 , 单位 是 毫秒 , 默认 值 是 
90000， 即 90s。 该 配置 值 有 两 个 作用 : 一 是 在 客户 端 连接 HBase 集群 
时 ZooKeeper 会 话 的 超时 时 间 ; 二 是 HRegionServer 连接 ZooKeeper 时 
的 最 长 超时 时 间 。 如 果 ZooKeeper 是 单独 部 署 的 ， 那 么 在 ZooKeeper 
的 配置 中 有 一 个 参数 maxSessionTimeout 也 设置 了 会 话 最 长 超时 时 间 ， 
HRegionServer 连接 ZooKeeper 的 实际 会 话 超时 时 间 以 这 两 个 配置 值 中 
较 小 的 一 个 为 准 ， 例 如 在 HBase 中 该 参数 使 用 了 默认 配置 值 90s， 而 在 
单独 安装 的 ZooKeeper 中 maxSessionTimeout 的 配置 值 为 40s， 那 么 实 
际 的 会 话 超时 时 间 为 40s。 如 果 ZooKeeper 是 HBase 自 带 的 ， 那 么 实际 
会 话 超 时 时 间 即 是 该 参数 设置 值 。 


10. hbase.masterport 


该 参数 设置 了 HMaster 进程 绑 定 的 端口 号 ， 默 认 值 为 16000。 
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11. hbase.masterinfo.port 
该 参数 设置 了 HBase Master 的 Web 页 面 的 端口 号 ,默认 值 为 16010。 
12. hbase.master.wait.on.regionservers.mintostart 


该 参数 设置 了 HBase 集群 启动 时 HIMaster 在 有 多 少 个 HRegionServer 
启动 后 开始 分 配 任务 ， 默 认 值 为 1。 当 集群 中 HRegionServer 很 少时 可 
以 使 用 默认 值 ， 而 当 集 群 中 有 很 多 台 HRegionServer 时 则 应 增 大 该 配置 
值 ， 因 为 大 集群 收 到 的 客户 端 请 求 一 般 比 较 多 , 使 用 默认 值 可 能 会 使 很 
多 任务 都 被 分 配给 第 一 个 启动 的 HRegionServer, 导致 超出 其 合理 负载 。 


13. hbase.regionserver.port 
该 参数 设置 了 HRegionServer 进程 绑 定 的 端口 号 , 默认 值 为 16020。 
14. hbase.regionserver.info.port 


该 参数 设置 了 HRegionServer 的 Web 页 面 的 端口 号 ， 默 认 值 为 16030, 
如 果 不 想 运 行 HRegionServer 的 Web 页 面 则 可 将 该 参数 设置 为 -1。 


15. hbase.regionserver.handler.count 


该 参数 配置 了 每 台 HRegionServer 和 HMaster 上 用 于 侦 听 响应 客户 
端 请 求 的 线程 数量 ， 默 认 值 为 30。 该 参数 的 配置 值 直接 关系 到 集群 的 
处 理 能 力 ， 如 果 平 均 每 个 客户 端 请 求 需要 的 系统 资源 比较 小 , 则 该 配置 
值 可 以 高 一 些 ， 反 之 则 应 配置 得 低 一 些 ， 目 的 是 要 保证 服务 器 有 足够 的 
可 分 配 内 存 维持 节点 健康 运行 。 一 般 来 说 gets 请 求 、 小 的 puts 请 求 、 
删除 请 求 需 要 的 内 存 比较 少 ， 而 大 的 puts 请 求 、 需 要 大 量 缓冲 的 扫描 
请 求 则 需要 的 内 存 比 较 多 。 可 以 通过 查看 高 峰 时 服务 器 的 内 存 使 用 情况 
来 确定 该 配置 值 是 否 可 以 增 大 。 


16. hbase.ipc.server.callqueue.handler.factor 


该 参数 配置 了 每 台 HRegionServer 和 HMaster 上 对 应 于 处 理 线 程 数 
的 调用 等 待 队 列 数量 因子 , 范围 在 0 到 1 之 间 ， 如 果 配 置 值 为 0 表示 所 
有 处 理 线程 共享 一 个 调用 等 待 队列 , 为 1 则 表示 每 个 处 理 线程 都 有 自己 
的 调用 等 待 队列 。 默认 值 为 0.1， 表 示 每 10 个 处 理 线 程 共享 一 个 调用 等 
待 队列 ， 如 hbase.regionserverhandlercount 配置 为 默认 值 30， 则 每 个 节 
点 上 有 3 个 调用 等 待 队列 。 


17. hbase.hregion.max.filesize 


该 参数 定义 了 一 个 HRegion 中 所 有 Hfile 文件 的 合计 大 小 上 限 ， 默 


认 值 为 10737418240, 即 10GB。 当 一 个 HRegion 中 的 Hfile 文件 合计 大 
小 超过 该 配置 值 时 , 该 HRegion 将 自动 拆 分 成 两 个 HRegion。 如 果 不 希 
望 进行 HRegion 的 自动 拆 分 ， 则 可 将 该 参数 设置 成 一 个 非常 大 的 值 。 


18. hbase.hregion.majorcompaction 


该 参数 配置 了 HRegion 数据 自动 进行 周期 性 主 压缩 的 间隔 时 间 , 单 
位 是 毫秒 ， 默 认 值 为 604800000， 即 7 天 。 如 该 参数 设置 为 0， 则 不 进 
行 周期 性 主 压缩 , 但 基于 文件 大 小 的 主 压缩 和 手工 执行 的 主 压缩 不 受 该 
参数 影响 。 

要 理解 该 参数 ， 先 要 理解 HBase 中 压缩 的 概念 。 每 个 HRegion 由 
一 个 或 多 个 Store 组 成 ， 每 个 Store 保存 表 中 一 个 列 族 的 数据 ， 由 一 个 
MemStore 和 若干 个 StoreFile 组 成 ， 经 过 一 段 时 间 ，StoreFile 数量 会 越 
来 越 多 ， 压 缩 操作 则 是 将 一 些 StoreFile 合并 为 一 个 ， 从 而 提升 读 性 能 。 
压缩 操作 分 为 主 压缩 和 微 压缩 两 种 : 微 压 缩 仅 挑 选 几 个 小 的 StoreFile 
并 将 它们 合并 为 一 个 大 文件 , 而 不 清除 其 中 带 删 除 标志 的 数据 和 过 期 版 
本 数据 主 压缩 则 将 每 个 Store 里 面 的 所 有 StoreFile 合并 为 一 个 文件 ， 
并 且 清 除 掉 带 删除 标志 的 数据 和 过 期 版 本 数据 。 由 此 可 见 压缩 对 HBase 
集群 非常 重要 ， 如 果 不 进行 压缩 , 没 用 的 垃圾 数据 得 不 到 清理 ， 表 数据 
都 保存 在 数量 众多 的 小 文件 中 ， 性 能 会 受到 影响 。 

注意 周期 性 主 压缩 并 不 是 严格 按照 该 参数 配置 的 时 间 间 隔 来 执行 
的 , 而 是 在 该 时 间 间 隔 前 后 一 定 范围 内 随机 执行 的 , 范围 大 小 为 该 参数 
值 乘 以 参数 hbase.hregion.majorcompaction jitter 的 配置 值 。 如 果 希 望 固 
定 在 某 个 空 闪 时 间 点 执行 主 压 缩 操作 ， 可 以 将 该 参数 设置 为 0， 也 可 通 
过 cron job 等 方法 来 设 定时 间 定 期 执行 压缩 操作 。 

19. hbase.hregion.majorcompaction .jitter 

该 参数 配置 了 随机 执行 周期 性 主 压缩 操作 的 前 后 时 间 范 围 , 默认 值 
为 0.5， 如 果 hbase.hregion.majorcompaction 是 默认 配置 7 RW, WEK 
示 在 前 次 周期 性 主 压缩 操作 7 天 后 的 前 后 各 3.5 天 的 时 间 范 围 内 随机 选 
择 一 个 时 间 点 执行 下 一 次 主 压缩 操作 。 如 果 希 望 每 两 次 主 压缩 操作 的 时 
间 间 隔 都 比较 固定 ， 则 可 将 该 参数 设置 得 比较 小 。 

20. hbase.hregion.memstore.flush.size 


该 参数 配置 了 Store 中 的 MemStore 达到 多 大 时 会 存 入 磁盘 生成 
StoreFile， 默 认 值 为 134217728， 即 128MB。 
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21. hbase.regionserver.global.memstore.size 


该 参数 配置 了 HRegionServer 中 所 有 MemStore 合计 大 小 的 上 限 ， 
按照 堆 内 存 的 百分比 计算 ， 如 果 达 到 上 限 ， 则 暂停 该 HRegionServer 上 
的 所 有 更 新 操作 ， 强 制 将 MemStore 写 入 磁盘 ， 直 到 MemStore 合计 大 
小 低 于 hbase.regionserver.global.memstore.size.lower.limit 配置 值 时 再 恢复 
正常 更 新 。 默 认 值 为 0.4， 即 上 限 为 堆 内 存 的 40%。 堆 内 存 是 Java 运行 时 
用 -Xmx 选项 指定 的 ， 可 在 hbase-env.sh 中 设置 参数 HBASE HEAPSIZE 
来 指定 堆 内 存 大 小 。 


22. hfile.block.cache.size 


该 参数 配置 了 最 多 使 用 堆 内 存 的 百 分 之 多 少 作 为 StoreFile 块 缓存 
的 百分比 ， 默 认 值 为 0.4， 即 上 限 为 堆 内 存 的 40%。 该 参数 不 能 配置 为 
0， 至 少 应 留 一 定 的 比例 用 于 将 StoreFile 的 索引 放 入 缓存 中 。 该 参数 和 
上 一 参数 hbase.regionserver.global.memstore.size 的 默认 配置 都 是 堆 内 存 
的 40%, 两 者 合计 为 堆 内 存 的 80%， 当 对 这 两 个 参数 进行 配置 时 ， 要 注 
意 两 者 合计 一 般 不 应 超过 0.8。 


23. hbase.balancer.period 


该 参数 配置 了 HMaster 运行 HRegion 均衡 器 的 周期 ， 单 位 是 毫秒 ， 
默认 值 为 300000， 即 HMaster 每 隔 Smin 执行 一 次 HRegion 均衡 器 。 
HRegion 均衡 器 检查 各 个 HRegionServer 的 负载 并 在 HRegionServer 之 
间 移 动 HRegion 以 达到 负载 均衡 。 


24. hbase.client.write.buffer 


该 参数 配置 了 HBase 服务 器 端 和 客户 端 写 入 数据 库 缓 冲 区 的 大 小 ， 
默认 值 为 2097152， 即 2M。 设 置 较 大 的 写 缓冲 区 可 以 减少 RPC 请 求 数 
量 ， 加 快 写 入 速度 ， 但 需要 消耗 更 多 内 存 ， 特 别 是 在 服务 器 端 每 个 侦 听 
线程 都 有 一 个 独立 的 写 缓冲 区 , 因此 合计 需要 的 内 存 大 小 为 hbase.client. 
write .buffer 和 hbase.regionserver.handler.count 这 两 个 参数 配置 值 的 乘积 。 


25. hbase.security.authentication 


该 参数 配置 了 是 否 启用 HBase 客户 端 安全 认证 ， 默 认 值 为 simple， 表 
示 不 进行 安全 认证 ， 可 以 设置 为 Kerberos， 表 示 采 用 Kerberos 安全 认证 。 


3.3.3 ”配置 建议 
虽然 HBase 的 大 多 数 配 置 项 使 用 默认 值 即 可 ， 但 在 生产 环境 中 有 


一 些 参 数 是 必须 或 应 该 进行 显 式 配置 的 。 下 面 给 出 hbase-site .xml 和 
hbase-env.sh 中 的 主要 配置 示例 。 


1. hbase-site.xml 


生产 环境 的 hbase-site xml 文件 必须 要 配置 以 下 参数 : 
口 hbase.cluster.distributed 
口 hbase.tmp.dir 
DO hbase.rootdir 
0 hbase.zookeeper.quorum 
生产 环境 的 hbase-site.xml 文件 还 建议 配置 以 下 参数 ， 当 然 实际 配 
置 的 参数 不 限于 此 : 
O hbase.zookeeper.property.dataDir 





hbase.master.wait.on.regionservers.mintostart 
hbase.regionserver.handler.count 
hbase.hregion.majorcompaction 
hbase.hregion.majorcompaction. jitter 
hbase.regionserver.global.memstore.size 


hfile.block.cache.size 


OOOOODO DO 


hbase.client.write.buffer 


下 面 是 对 上 述 参数 进行 配置 的 hbase-site.xml 示例 : 


<?xml version="1.0"?> 
<?xml-stylesheet type="text/xsl" href="configuration.xsl"?> 
<configuration> 
<property> 
<name>hbase.cluster.distributed</name> 
<value>true</value> 
</property> 
<property> 
<name>hbase.rootdir</name> 
<value>hdfs://master:8020/hbase</value> 
</property> 
<property> 
<name>hbase.tmp.dir</name> 
<value>/usr/local/hbase</value> 
</property> 
<property> 
<name>hbase.zookeeper.quorum</name> 
<value>master,slave2,slave3</value> 
</property> 


<property> 
<name>hbase.zookeeper.property.dataDir</name> 
<value>/usr/local/zookeeper</value> 

</property> 

<property> 
<name>hbase.master.wait.on.regionservers.mintostart</name> 
<value>2</value> 

</property> 

<property> 
<name>hbase.regionserver.handler.count</name> 
<value>50</value> 

</property> 

<property> 
<name>hbase.hregion.majorcompaction</name> 
<value>86400000</value> 

</property> 

<property> 
<name>hbase.hregion.majorcompaction jitter</name> 
<value>0</value> 

</property> 

<property> 
<name>hbase.regionserver.global.memstore.size</name> 
<value>0.3</value> 

</property> 

<property> 
<name>hfile.block.cache.size</name> 
<value>0.5</value> 

</property> 

<property> 
<name>hbase.client.write.buffer</name> 
<value>4194304</value> 

</property> 

</configuration> 


2. hbase-env.sh 


在 hbase-env.sh 文件 中 需要 配置 JAVA_HOME， 并 根据 服务 器 内 存 
情况 来 配置 堆 内 存 大 小 参数 HBASE_HEAPSIZE， 另 外 默认 时 使 用 
HBase 自 带 的 ZooKeeper, 如 果 ZooKeeper 是 独立 部 署 的 , 需要 在 hbase- 
env.sh 中 将 HBASE_ MANAGES_ZK 参数 配置 为 false， 示 例如 下 : 





# The java implementation to use. Java 1.7+ required. 
export JAVA_HOME=/etc/alternatives/jre_1.7.0_openjdk 


# The maximum amount of heap to use. Default is left to JVM default. 





export HBASE_HEAPSIZE=8G 


# Tell HBase whether it should manage it's own instance of Zookeeper or not. 
export HBASE_MANAGES_ZK=false 


3.3.4 客户 端 配置 


在 HBase 集群 的 节点 上 可 以 直接 通过 HBase Shell 连接 到 集群 进行 
操作 ， 而 如 果 要 从 其 他 客户 端 连 接 HBase 集群 ， 则 需要 安装 好 HBase 
库 文件 并 进行 必要 的 客户 端 设置 。 

最 简单 的 方法 是 在 客户 端 中 解压 HBase 安装 包 并 将 解压 后 的 lib/ 子 
目录 和 conf/ 子 目录 加 入 到 客户 端的 CLASSPATH 环境 变量 中 ，lib/ 子 目 
录 包 含 了 HBase 的 所 有 库 文件 ， 而 conf/ 子 目录 包含 了 HBase 的 客户 端 
配置 文件 。 客 户 端的 设置 也 比较 简单 ， 只 需要 在 conf/hbase-site.xml 配 
置 文件 中 设置 好 参数 hbase.zookeeper.quorum 即 可 ， 因 为 ZooKeeper 中 
保存 了 HBase 集群 的 位 置信 息 ， 只 要 连接 到 ZooKeeper 就 可 以 获取 所 
需要 的 其 他 信息 ， 该 参数 的 设置 方法 和 服务 器 端 相同 。 客 户 端 hbase- 
site.xml 的 示例 如 下 : 

<?xml version="1.0"?> 

<?xml-stylesheet type="text/xsl" href="configuration.xsl"?> 

<configuration> 

<property> 
<name>hbase.zookeeper.quorum</name> 
<value>master,slave2,slave3</value> 
</property> 

</configuration> 

再 次 强调 ，hbase.zookeeper.quorum 配置 值 中 不 能 包含 空格 ， 否 则 
将 无 法 连接 到 ZooKeeper。 


3.4 HBase Shell 


使 用 HBase 有 两 种 常用 方式 ， 一 种 是 通过 HBase Shell 直接 进行 数 
据 库 操作 ， 另 一 种 是 通过 HBase 提供 的 API 编程 接口 在 程序 中 进行 操 
作 ， 目 前 HBase 提供 了 Java, C/C++, Scala, Python 等 多 种 语言 的 编 
程 接口 。 本 节 介绍 HBase Shell 的 常用 命令 以 及 交互 式 和 非 交 互 式 两 种 
运行 模式 。 


3.4.1 交互 模式 


在 HBase 安装 目录 的 bin 子 目录 下 执行 hbase shell 命令 即 可 进入 
HBase Shell 交互 模式 进行 数据 库 操作 ， 结 果 如 下 : 
[root@client bin]# ./hbase shell 
HBase Shell; enter 'help<RETURN>' for list of supported commands. 
Type "exit<RETURN>" to leave the HBase Shell 


Version 1.2.4，r67592f3d062743907f8c5ae00dbbe1ae4f69e5af，Tue Oct 25 
18:10:20 CDT 2016 


hbase(main):001:0> 


在 HBase Shell 提示 符 下 执行 help 命令 可 列 出 所 有 命令 列表 ， 可 以 
注意 到 这 些 命令 都 是 小 写字 母 。 执 行 help '<command>' 可 显示 针对 某 条 
命令 的 帮助 信息 , 注意 <command> 前 后 要 加 单 引 号 或 双 引 号 , 例如 执行 
help 'status' 即 可 显示 status 命令 的 用 法 : 

hbase(main):002:0> help 'status' 


Show cluster status. Can be 'summary', 'simple', 'detailed', or 'replication'. The 
default is 'summary'. Examples: 


hbase> status 

hbase> status 'simple' 

hbase> status 'summary' 

hbase> status 'detailed' 

hbase> status 'replication' 

hbase> status 'replication', 'source' 

hbase> status 'replication', 'sink' 
hbase(main):003:0> [root@client bin]# 


下 面 按照 不 同 命令 类 别 对 Hbase 的 常用 命令 分 别 加 以 介绍 。 

1. DDL 命令 

DDL 命令 主要 包括 表 的 创建 、 修 改 、 停 用 、 启 用 、 删 除 、 结 构 和 
状态 查看 等 命令 。 

(1) create 


create 命令 将 创建 一 张 新 表 ， 后 面 带 由 逗号 分 隔 的 多 个 参数 ， 有 长 
格式 和 短 格式 两 种 写法 ， 示 例如 下 : 


hbase(main):021:0> create 't1', (NAME => 'f1'), (NAME => 'f2'), (NAME => 'f3') 
0 row(s) in 2.3460 seconds 





=> Hbase::Table - t1 
hbase(main):022:0> create 't2', 'f1', 'f2', 'f3' 
0 row(s) in 4.3770 seconds 


=> Hbase::Table - t2 

hbase(main):023:0> 

上 述 两 条 命令 使 用 两 种 不 同 的 命令 格式 在 默认 命名 空间 default 中 
分 别 创建 表 tl 和 t2， 它 们 都 有 三 个 列 族 fl. f2. f3. create 后 面 的 每 个 
参数 由 逗号 分 隔 ， 其 中 第 一 个 参数 是 表 名 ， 其 后 是 列 族 ， 最 后 是 表 属 性 
定义 ， 其 中 表 名 和 第 一 个 列 族 是 必需 的 ， 其 他 都 是 可 选 的 。 注 意 表 名 和 
列 族 名 都 要 加 上 单 引 号 或 双 引 号 ，NAME 必须 大 写 。 

(2) list 

list 命令 不 加 选项 则 列 出 所 有 表 ， 也 可 以 加 上 对 表 名 进行 过 滤 的 正 
则 表达 式 选 项 ， 使 用 .和 * 作 为 通配符 ，. 匹 配 一 个 任意 字符 ，* 表 示 其 前 
面 字符 可 以 有 0 个 或 任意 多 个 ， 因 此 .* 则 匹配 0 个 或 多 个 任意 字符 ， 示 
例如 下 : 

hbase(main):087:0> list 

TABLE 

t1 


t2 
2 row(s) in 0.0100 seconds 


Se 
hbase(main):088:0> list 't.* 
TABLE 

t1 

t 

2 row(s) in 0.0120 seconds 


=> pnn eT 
hbase(main):089:0> 


(3) exists 
exists 命令 查看 某 张 表 是 否 存 在 ， 示 例如 下 : 


hbase(main):090:0> exists 't1' 
Table t1 does exist 
0 row(s) in 0.0310 seconds 


hbase(main):091:0> 


(4) describe 
describe 命令 显示 某 张 表 的 定义 ， 也 可 以 使 用 简写 命令 desc， 示 例 
如 下 : 


hbase(main):093:0> desc 't1' 

Table t1 is ENABLED 

t1 

COLUMN FAMILIES DESCRIPTION 

{NAME => 'f1', DATA_BLOCK_ENCODING => 'NONE', BLOOMFILTER => ' 
ROW', REPLICATION_SCOPE => '0', VERSIONS => '1', COMPRESSION = 
> 'NONE', MIN_VERSIONS => '0', TTL => 'FOREVER', KEEP_DELETED_ 
CELLS => 'FALSE', BLOCKSIZE => '65536', IN_MEMORY => 'false', 
BLOCKCACHE => 'true') 

(NAME => 'f2', DATA_BLOCK_ENCODING => 'NONE', BLOOMFILTER => ' 
ROW', REPLICATION_SCOPE => '0', VERSIONS => '1', COMPRESSION = 
> 'NONE', MIN_VERSIONS => '0', TTL => 'FOREVER', KEEP_DELETED_ 
CELLS => 'FALSE', BLOCKSIZE => '65536', IN_MEMORY => 'false', 
BLOCKCACHE => 'true') 

(NAME => 'f3', DATA_BLOCK_ENCODING => 'NONE', BLOOMFILTER => ' 
ROW', REPLICATION_SCOPE => '0', VERSIONS => '1', COMPRESSION = 
> 'NONE', MIN_VERSIONS => '0', TTL => 'FOREVER', KEEP_DELETED_ 
CELLS => 'FALSE', BLOCKSIZE => '65536', IN_MEMORY => 'false', 
BLOCKCACHE => 'true') 

3 row(s) in 0.0320 seconds 


hbase(main):094:0> 


(5) disable 

disable 命令 停 用 某 张 表 , 表 被 停 用 后 则 无 法 再 对 其 进行 增删 改 和 查 
询 等 操作 。 在 对 表 执 行 alter 命令 或 drop 命令 之 前 必须 先 执行 disable 
命令 停 用 ， 示 例如 下 : 


hbase(main):094:0> disable 't2' 
0 row(s) in 4.9500 seconds 


hbase(main):095:0> 


(6) enable 
enable 命令 启用 某 张 被 disable 命令 停 用 的 表 ， 表 被 启用 后 即 可 恢 
复 正常 操作 。 示 例如 下 : 


hbase(main):095:0> enable 't2' 
0 row(s) in 2.4810 seconds 


hbase(main):096:0> 


(7) alter 
alter 命令 可 在 某 张 表 中 增加 、 修改、 删除 列 族 或 者 更 改 表 的 属性 定 
X, alter 命令 的 格式 和 create 命令 格式 类 似 ， 下 面 是 几 个 示例 : 


hbase(main):096:0> alter 't2', (NAME => 'f2', IN_MEMORY => true), {NAME 
=> 'f3', VERSIONS => 5) 

Updating all regions with the new schema... 

1/1 regions updated. 

Done. 

Updating all regions with the new schema... 

1/1 regions updated. 

Done. 

0 row(s) in 5.7630 seconds 


hbase(main):097:0> 


上 述 命令 修改 表 t2 的 列 族 属性 ， 将 列 族 2 数据 保存 在 内 存 里 ， 列 
族 f3 每 个 单元 最 多 保存 的 版 本 数 为 5〈 默 认 值 为 1)。 


hbase(main):097:0> alter 't2', NAME => 'f1', METHOD => 'delete' 
Updating all regions with the new schema... 

0/1 regions updated. 

1/1 regions updated. 

Done. 

0 row(s) in 4.2360 seconds 


hbase(main):098:0> alter 't2', 'delete' => 'f2' 
Updating all regions with the new schema... 
1/1 regions updated. 

Done. 

0 row(s) in 3.0040 seconds 


hbase(main):099:0> [root@client bin]# 


上 述 两 条 命令 分 别 删除 表 t2 中 的 列 族 fi 和 亿 。 


hbase(main):011:0> alter 't1', { NAME => 'f1', VERSIONS => 5 }, MAX_ 
FILESIZE => '134217728' 

Updating all regions with the new schema... 

1/1 regions updated. 

Done. 

Updating all regions with the new schema... 

1/1 regions updated. 

Done. 


0 row(s) in 6.8430 seconds 


hbase(main):012:0> 


上 述 命令 修改 表 tl 的 列 族 1， 使 每 个 单元 最 多 保存 的 版 本 数 为 5, 
同时 修改 表 tl 的 属性 MAX FILESIZE 为 128MB， 即 该 表 HRegion 的 
最 大 值 为 128MB 。 和 create 命令 一 样 ， 如 果 一 条 alter 命令 同时 要 修改 
列 族 和 表 属 性 定义 ， 则 表 属 性 定义 应 该 放 在 命令 的 最 后 面 。 

hbase(main):014:0> alter 't1', METHOD => 'table_att_unset', NAME => 'MAX_ 

FILESIZE' 

Updating all regions with the new schema... 

1/1 regions updated. 


Done. 
0 row(s) in 3.3190 seconds 


hbase(main):014:0> 


上 述 命令 取消 表 tl 的 MAX FILESIZE 属性 定义 。 
(8) drop 
drop 命令 删除 某 张 表 , 在 删除 前 必须 先 执行 disable 命令 停 用 该 表 。 
示例 如 下 : 


hbase(main):018:0> drop 't2' 
0 row(s) in 2.3700 seconds 


hbase(main):019:0> 

2. DML 命令 

DML 命令 主要 包括 表 数 据 的 插入 、 删 除 、 查 询 等 操作 命令 。 
(1) put 


put 命令 向 某 张 表 里 的 指定 单元 插入 数据 ， 通 过 行 键 和 列 名 来 指定 
一 个 单元 ， 命 令 格式 示例 如 下 : 


hbase(main):016:0> put 't1', 'r1', 'f1:c1', 'value1' 
0 row(s) in 0.0150 seconds 


hbase(main):017:0> put 't1', 'r2', 'f1:c2', 'value2' 
0 row(s) in 0.0160 seconds 


hbase(main):018:0> put 't1', 'r3', 'f1:c3', 'value3' 
0 row(s) in 0.0140 seconds 


hbase(main):019:0> put 't1', 'r1', *f2:c4', 'value4' 
0 row(s) in 0.0120 seconds 


hbase(main):020:0> 


上 述 几 条 命令 向 表 tl 中 的 4 个 单元 插入 数据 ， 共 有 3 行 ， 行 键 分 
别 为 r1、r2、r3， 列 名 也 各 不 相同 。 

(2) scan 

scan 命令 查询 某 张 表 中 满足 条 件 的 数据 ， 可 以 在 行 、 列 、 时 间 戳 等 
多 个 维度 上 设 定 查询 条 件 。 下 面 是 一 些 示 例 : 


hbase(main):023:0> scan 't1' 

ROW COLUMN+CELL 

r4 column=f1:c1, timestamp=1488038266200, value=value1 

r1 column=f2:c4, timestamp=1488038612014, value=value4 
r2 column=f1:c2, timestamp=1488038513186, value=value2 
r3 column=f1:c3, timestamp=1488038526993, value=value3 


3 row(s) in 0.0470 seconds 
hbase(main):024:0> 


上 述 命令 查询 表 tl 中 的 所 有 数据 。 


hbase(main):045:0> scan 't1', (COLUMNS => ['f1', 'f3'], LIMIT => 2, STARTROW 


=> 'r1') 

ROW COLUMN+CELL 
ni column=f1:c1, timestamp=1488038266200, value=value1 
r2 column=f1:c2, timestamp=1488038513186, value=value2 


2 row(s) in 0.0250 seconds 


hbase(main):046:0> 


上 述 命令 查询 表 tl 从 行 键 rl 开始 的 2 行 数据 ， 包 含 列 族 f 和 他 
中 的 所 有 列 。HBase 表 中 的 各 行 是 按照 行 键 的 字母 顺序 存放 的 。 


hbase(main):001:0> scan ‘t1', {COLUMNS => ['f1'], TIMERANGE => 
[1488038266200,1488038520000], REVERSED => true ) 


ROW COLUMN+CELL 

r2 column=f1:c2, timestamp=1488038513186, 
value=value2 

r4 column=f1:c1, timestamp=1488038266200, 


value=value1 
2 row(s) in 0.9850 seconds 


hbase(main):002:0> 


上 述 命令 查询 表 tl HEERE 1488038266200 和 1488038520000 之 
间 的 列 族 fl 的 所 有 数据 ， 结 果 以 行 键 的 倒序 排列 。 

(3) get 

get 命令 获取 表 中 给 定 行 符合 条 件 的 数据 ， 第 一 个 参数 是 表 名 ， 第 
二 个 参数 是 行 键 ， 示 例如 下 : 


hbase(main):008:0> get 't1', 'r1' 


COLUMN CELL 
f1:c1 timestamp=1488038266200, value=value1 
f2:c4 timestamp=1488038612014, value=value4 


2 row(s) in 0.0340 seconds 


hbase(main):009:0> get 't1', 'r1', (FILTER => "ValueFilter(>=, 'binary:value4')") 
COLUMN CELE 

f2:c4 timestamp=1488038612014, value=value4 
1 row(s) in 0.0120 seconds 


hbase(main):010:0> 


上 述 第 一 条 命令 查询 表 tl 中 行 键 为 rl 的 所 有 数据 ， 第 二 条 命令 查 
询 表 tl 中 行 键 为 rl 且 值 大 于 等 于 value4 的 数据 。 
(4) count 
count 命令 查询 某 张 表 中 的 行 数 ， 默 认 时 每 1000 行 计 一 次 数 ， 计 数 
间隔 是 可 以 在 count 命令 中 设置 的 ， 如 下 面 的 示例 将 计数 间隔 改 为 2: 
hbase(main):013:0> count 't1', INTERVAL => 2 


Current count: 2, row: r2 
3 row(s) in 0.0330 seconds 


r Pune 

(5) delete 

delete 命令 删除 某 张 表 中 指定 单元 的 数据 ， 通 过 表 名 、 行 键 和 列 名 
指定 一 个 单元 ,还 可 以 加 上 时 间 惟 ,如 果 有 时 间 戳 选项 则 表示 删除 该 单 
元 该 时 间 戳 之 前 的 所 有 版 本 数据 , 如 果 没有 时 间 戳 选项 则 表示 删除 该 单 
元 所 有 版 本 数据 。 示 例如 下 : 


hbase(main):086:0> delete 't1', 'r1', 'f1:c1' 
0 row(s) in 0.0190 seconds 


hbase(main):087:0> 





3. 命名 空间 类 命令 

命名 空间 (namespace) 是 对 表 的 逻辑 分 组 ， 类 似 于 关系 数据 库 系 
统 中 的 数据 库 概念 。HBase 可 以 针对 命名 空间 分 配 资源 限额 、 指 定 
HRegionServer 子 集 、 进 行 安全 管理 等 。HBase 有 以 下 两 个 默认 的 命名 
空间 : 

口 hbase: 系统 命名 空间 ， 用 于 保存 HBase 的 内 部 表 ， 用 户 不 应 

使 用 该 命名 空间 。 

O default: HBase 的 默认 命名 空间 ， 如 果 一 张 表 没有 指定 命名 空 
间 ， 则 自动 属于 default 命名 空间 。 我 们 前 面 的 DDL 和 DML 
命令 示例 中 的 表 都 属于 默认 命名 空间 。 

HBase 通过 < 命名 空间 >:< 表 标识 符 > 的 格式 来 表示 一 张 表 ， 例 如 
default:t1， 如 果 表 名 中 没有 给 出 命名 空间 ， 则 暗示 该 表 属 于 default 命 
名 空间 。 

命名 空间 类 命令 包括 命名 空间 的 创建 、 修 改 、 删 除 和 查询 等 操作 
命令 。 

(1) create namespace 

create_namespace 命令 创建 一 个 命名 空间 ， 可 以 加 上 命名 空间 的 配 
置 选项 ， 下 面 的 命令 示例 创建 命名 空间 nsl, nl 中 最 多 只 能 有 5 张 表 : 

hbase(main):002:0> create_namespace "ns1 


{hbase.namespace.quota. maxtables'=>'5') 
0 row(s) in 0.5100 seconds 





hbase(main):003:0> 


(2) alter namespace 
alter_namespace 命令 修改 某 个 命名 空间 的 定义 , 下 面 的 命令 示例 修 
改 命名 空间 ns1， 使 其 最 多 只 能 有 20 个 HRegion: 
hbase(main):011:0> alter_namespace 'ns1', {METHOD => 'set', 


'hbase.namespace.quota.maxregions'=>'20') 
0 row(s) in 0.1640 seconds 


hbase(main):012:0> 


(3) describe namespace 


describe namespace 命令 显示 命名 空间 的 定义 ， 示 例如 下 : 


hbase(main):006:0> describe_namespace 'ns1' 
DESCRIPTION 


(NAME => "ns1, hbase.namespace.quota.maxregions => '20', hbase.namespace. 
quota.maxtables => '5'} 
1 row(s) in 0.0080 seconds 


hbase(main):007:0> 


(4) list namespace 
list. namespace 命令 不 加 选项 时 列 出 所 有 的 命名 空间 ， 也 可 以 加 上 
带 有 通配符 的 正则 表达 式 选 项 。 示 例如 下 : 
hbase(main):015:0> list_namespace 
NAMESPACE 
default 
hbase 


ns1 
3 row(s) in 0.0280 seconds 


hbase(main):016:0> 


(5) list namespace tables 


list namespace tables 命令 列 出 某 个 命名 空间 中 的 所 有 表 , 示例 如 下 : 


hbase(main):023:0> list_namespace_ tables "default 
TABLE 

t1 

t2 

2 row(s) in 0.0160 seconds 


hbase(main):024:0> 


(6) drop namespace 
drop_namespace 命令 删除 某 个 命名 空间 , 只 有 当 命名 空间 中 没有 任 
何 表 时 该 命令 才能 成 功 执行 。 示 例如 下 : 


hbase(main):030:0> drop_namespace 'ns1' 
0 row(s) in 0.1750 seconds 


hbase(main):031:0> 


4. 其 他 命令 

其 他 命令 包括 配置 类 命令 、 安 全 类 命令 、 限额 类 命令 、 工具 类 命令 、 
复制 类 命令 、 快 照 类 命令 、 过 程 类 命令 、 可 视 化 标签 类 命令 及 通用 类 命 
令 等 。 





配置 类 命令 对 HBase 集群 参数 配置 值 进行 动态 更 新 。 大 多 数 配置 
更 改 后 必须 重新 启动 HBase 集群 才能 生效 ， 也 有 一 些 参 数 配置 可 以 动 
态 更 改 , 这 些 主要 是 与 HRegion 压缩 、 拆 分 相关 的 参数 , 更 改 后 在 HBase 
Shell 中 执行 update_all config 命令 ， 即 在 所 有 HBase 节点 上 读 取 配置 
文件 中 这 些 动态 参数 的 配置 值 ， 并 更 新 到 内 存 中 生效 。 示 例如 下 : 


hbase(main):035:0> update_all_config 
0 row(s) in 0.3710 seconds 


hbase(main):036:0> 


安全 类 命令 将 在 3.6 节 中 介绍 , 其 他 命令 限于 篇 幅 , 不 再 一 一 介绍 ， 
通过 help 命令 可 以 查看 每 个 命令 的 作用 和 使 用 方法 。 


3.4.2” 非 交互 模式 


HBase Shell 还 可 以 以 非 交互 方式 运行 ,加 上 -n 或 者 --noninteractive 
选项 即 可 不 进入 交互 式 环境 , 所 执行 命令 可 以 通过 输入 重 定向 获取 , 示 
例如 下 : 


[root@client bin]# echo "list_namespace_tables 'default'" | ./hbase shell -n 
TABLE 

t1 

亿 

2 row(s) in 0.4170 seconds 


nil 

[root@client bin]# 

上 述 示例 通过 管道 将 list namespace_ tables 'default' 作 为 hbase shell 
-命令 的 输入 ， 输 出 结果 是 default 命名 空间 中 的 表 。 当 然 也 可 以 将 多 
条 HBase Shell 命令 放 入 一 个 输入 文件 中 一 起 执行 ， 例 如 有 如 下 输入 文 
件 sample_cmd.txt: 

create 't3', 'f1', 'f2', 'f3' 

put 't3', 'r1', 'f1:a', 'value1' 

put 't3', 'r2', 'f2:b', 'value2' 

put 't3', 'r3', 'f3:c', 'value3' 

scan 't3' 

disable 't3' 

drop 't3' 


下 面 是 将 sample cmd.txt 作为 输入 文件 的 执行 结果 : 


[root@client bin]# ./hbase shell -n < sample_cmd.txt 
0 row(s) in 2.8080 seconds 


Hbase::Table - t3 

0 row(s) in 0.2110 seconds 
nil 

0 row(s) in 0.0210 seconds 
nil 

0 row(s) in 0.0190 seconds 


nil 

ROW COLUMN+CELL 
r4 column=f1:a, timestamp=1488469944883, value=value1 
r2 column=f2:b, timestamp=1488469944927, value=value2 
r3 column=f3:c, timestamp=1488469944981, value=value3 


3 row(s) in 0.0400 seconds 


nil 
0 row(s) in 8.4820 seconds 


nil 
0 row(s) in 2.3690 seconds 


nil 
[root@client bin]# 


hbase 命令 也 可 以 直接 以 脚本 文件 作为 其 命令 行 参数 来 执行 ， 将 
sample_cmd.txt 作为 命令 行 参数 的 执行 结果 如 下 : 


[root@client bin]# ./hbase shell sample_cmd.txt 
0 row(s) in 2.8100 seconds 


0 row(s) in 0.2070 seconds 
0 row(s) in 0.0160 seconds 


0 row(s) in 0.0210 seconds 


ROW COLUMN+CELL 
r1 column=f1:a, timestamp=1488470399223, value=value1 
r2 column=f2:b, timestamp=1488470399248, value=value2 
r3 column=f3:c, timestamp=1488470399264, value=value3 


3 row(s) in 0.0430 seconds 





0 row(s) in 4.3830 seconds 
0 row(s) in 2.3980 seconds 


HBase Shell; enter 'help<RETURN>' for list of supported commands. 

Type "exit<RETURN>" to leave the HBase Shell 

Version 1.2.4, r67592f3d062743907f8c5ae00dbbe1ae4f69e5af, Tue Oct 25 
18:10:20 CDT 2016 


hbase(main):001:0> 


上 述 示例 执行 完 sample_cmd.txt 脚本 之 后 进入 HBase Shell 交互 环境 。 


35 ”HBase 模式 设计 


HBase 作为 基于 HDFS 的 分 布 式 大 数据 处 理 系统 , 其 模式 设计 不 能 
套用 或 模仿 传统 关系 型 数据 库 的 设计 方式 , 而 需要 与 其 自身 的 特点 相 匹 
配 ， 其 性 能 的 好 坏 主 要 取决 于 内 部 表 的 设计 以 及 资源 的 分 配 是 否 合理 ， 
如 行 键 、 列 族 的 设计 以 及 数据 存储 等 。 

HBase 模式 看 起 来 很 简单 ， 但 有 很 多 可 配置 的 属性 ， 设 计时 需要 充 
分 考虑 不 同 的 配置 值 对 数据 写 入 和 查询 性 能 的 影响 ， 每 张 表 的 列 族 个 
数 、 列 名 的 长 短 、 每 个 单元 存储 多 少 个 时 间 版 本 、 行 键 的 选取 、 存 储 方 
式 、 块 大 小 等 都 会 影响 到 系统 性 能 。 


3.5.1 设计 准则 


HBase 的 运算 速度 涉及 多 种 因素 , 而 每 个 具体 的 系统 都 有 不 同 的 特 
点 ， 模 式 设计 不 可 能 千篇一律 ， 下 面 介 绍 一 些 比较 通用 的 HBase 模式 
设计 准则 。 

1. 行 键 设计 

HBase 中 表 的 每 个 列 族 按照 行 键 的 字典 顺序 来 存储 数据 ，HRegion 
也 是 根据 行 键 范围 来 进行 划分 的 ， 同 一 个 HRegion 中 的 行 键 是 相 邻 的 。 
行 键 一 旦 创建 ， 就 不 可 更 改 ， 由 于 表 数 据 按照 列 族 保存 在 不 同 的 Store 
中 ， 所 以 在 每 个 列 族 里 都 会 保存 一 份 行 键 。 行 键 的 设计 至 关 重 要 ， 既 需 
要 避免 出 现 访问 热点 ,， 即 访问 负载 集中 在 少数 几 个 HRegion 上 , 也 需要 
考虑 表 的 不 同 访问 模式 ， 即 对 该 表 的 访问 是 以 读 为 主 还 是 以 写 为 主 , 要 
针对 表 的 访问 模式 来 选择 合适 的 行 键 设计 策略 。 


e— 第 3 章 Hadoop 数据 库 HBase 


(1) 读 访问 模式 

众所周知 ,通过 索引 访问 数据 可 以 提升 查询 效率 ,， 如 果 没 有 索引 则 
只 能 通过 全 表 扫 描 来 查询 数据 ,开销 非常 高 。HBase 中 唯一 可 用 的 索引 
只 有 行 键 索 引 , 行 键 索引 是 系统 自动 创建 的 , 可 以 通过 行 键 定 位 到 其 在 
每 个 列 族 中 的 位 置 。 因此 需要 对 行 键 进行 精心 设计 来 尽 可 能 地 优化 数据 
查询 。 

在 进行 范围 查询 时 , 除了 希望 能 通过 索引 提升 查询 效率 , 还 希望 要 
查询 的 数据 尽 可 能 地 集中 在 一 起 ， 从 而 减少 IO 和 网 络 开 销 。 而 行 键 的 
设计 决定 了 什么 样 的 数据 会 放 在 一 起 , 不 同 的 行 键 设计 对 应 着 不 同 的 数 
据 存放 顺序 ， 需 要 我 们 在 仔细 权衡 优 劣 之 后 慎重 选择 。 

行 键 设计 的 环 手 之 处 在 于 , 它 只 能 优化 查询 条 件 与 行 键 相 匹 配 的 那 
些 数据 查询 ， 对 不 匹配 的 数据 查询 则 起 不 到 作用 或 作用 很 小 , 无 论 怎 样 
设计 行 键 ， 都 没 法 做 到 尽善尽美 。 因 此 在 行 键 设计 时 必须 有 所 取舍 , 通 
过 对 应 用 需求 进行 详细 分 析 , 找 出 实际 应 用 中 每 张 表 上 最 关键 最 核心 的 
查询 条 件 , 针对 这 些 查 询 条 件 来 设计 行 键 , 让 它们 在 查询 时 能 通过 行 键 
索引 实现 查询 优化 ， 提 升 效率 。 

例如 对 于 系统 日 志 数 据 , 如 果 发 现 最 常 使 用 的 查询 是 根据 错误 号 来 
查询 日 志 内 容 ， 则 应 将 错误 号 作为 行 键 的 首 列 。 

如 果 某 项 数据 既 可 以 放 在 行 键 中 , 也 可 以 作为 普通 列 存放 ,那么 选 
择 这 两 种 方式 的 哪 一 种 需要 考虑 : 放 在 行 键 中 会 得 到 更 好 的 查询 性 能 ， 
但 是 行 键 的 长 度 变 长 , 行 键 索引 会 占用 更 多 的 内 存 资源 ， 由 于 行 键 在 每 
个 列 族 中 保存 ， 也 会 需要 更 多 的 磁盘 空间 。 因 此 如 何 选 择 取 决 于 提升 性 
能 和 节省 资源 谁 的 优先 级 更 高 。 

(2) 写 访问 模式 

如 果 对 一 张 表 的 访问 是 以 写 为 主 的 , 那么 需要 避免 同一 时 间 段 里 写 
入 的 数据 集中 在 个 别 HRegion 上 形成 热点 。 如 果 行 键 设计 成 比较 常用 的 
自 增 ID 或 者 以 时 间 惟 开头 的 方式 ， 那 么 必然 导致 因为 行 键 相 邻 而 使 数 
据 集中 写 入 到 同一 个 HRegion 中 , 所 以 需要 考虑 如 何 将 行 键 设计 成 按 字 
典 顺序 随机 均匀 分 布 ， 从 而 将 负载 比较 均衡 地 分 摊 到 各 个 HRegion 上 。 
对 此 常用 的 行 键 设计 策略 有 随机 前 级 、 哈 希 前 缀 、 反 转 键 等 。 

O 随机 前 缀 : 即 在 原先 彼此 相 邻 的 行 键 前 面 加 上 一 个 随机 生成 的 

前 级 ,不同 前 级 的 数量 可 以 和 HRegion 的 数量 一 致 ， 这 样 就 可 
以 将 写 负载 比较 均匀 地 分 布 到 每 个 HRegion 上 。 它 的 缺点 是 查 
询 操 作 很 不 方便 ， 因 为 前 缀 是 随机 生成 的 ， 所 以 在 查询 时 无 法 
通过 行 键 来 查询 数据 。 
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O RAMA: 针对 随机 前 绥 生 成 的 行 键 具有 不 确定 性 的 缺陷 ， 哈 
希 前 级 对 此 做 了 改进 ,通过 对 原 行 键 调用 选 定 的 哈 希 函数 生成 
前 级 。 这 样 同 样 可 以 达到 写 负 和 载 均衡 的 目的 ， 而且 查询 时 也 可 
以 通过 该 哈 希 函数 重新 构造 出 完整 的 行 键 来 进行 查询 。 

O 反 转 键 : 将 原先 彼此 相 邻 的 行 键 按 字 节 序 反 转生 成 新 的 行 键 ， 
正常 情况 下 反 转 之 后 行 键 的 分 散 度 就 非常 高 了 。 反 转 键 方法 实 
现 的 成 本 很 低 ， 效 果 却 很 明显 。 

以 上 几 种 策略 都 会 失去 数据 按 特 定 行 键 顺序 存放 的 特性 , 存储 顺序 
变 得 没有 规律 可 循 , 因而 在 进行 范围 查询 时 需要 访问 全 部 索引 数据 且 需 
要 有 更 多 的 磁盘 IO 操作 ， 对 性 能 影响 很 大 。 最 理想 的 行 键 设计 方法 是 
既 能 让 有 关联 的 数据 集中 在 一 起 存放 ， 又 能 达到 写 负载 均衡 的 目的 ， 即 
同一 时 间 段 写 入 的 数据 行 键 比较 分 散 。 例 如 对 于 保存 传感器 数据 的 表 来 
说 ， 将 行 键 设计 为 “传感器 id+ 时 间 戳 ” 即 可 达到 上 述 目 的 ， 不 同 的 传 
感 器 传 来 的 数据 会 被 分 散 到 不 同 的 HRegion 上 存储 , 而 当 查 询 某 个 传 感 
器 某 一 时 间 段 的 数据 时 ， 又 可 以 通过 行 键 索引 集中 访问 个 别 的 
HRegion， 实 现 非 常 好 的 查询 性 能 。 

(3) 行 键 长 度 

行 键 的 长 度 也 需要 综合 权衡 : 一 方面 如 果 将 更 多 的 数据 放 入 行 键 
中 , 由 于 行 键 索引 在 内 存 中 进行 缓存 , 可 以 提升 对 这 些 数据 的 查询 性 能 ， 
另 一 方面 ， 行 键 的 长 度 越 长 ， 行 键 索引 需要 占用 的 内 存 就 越 多 ， 从 减少 
资源 使 用 的 角度 出 发 , 希望 设计 比较 短 的 行 键 。 比 较 常见 的 策略 有 以 下 
几 种 : 

O 设计 有 意义 但 尽 可 能 短 的 行 键 。 这 种 策略 优先 考虑 节省 系统 资源 。 

O 在 资源 允许 的 情况 下 尽 可 能 实现 查询 优化 ， 只 要 行 键 长 度 不 超 

出 内 存 承 受 范围 即 可 。 这 种 策略 优先 考虑 查询 性 能 。 

D 行 键 的 设计 仅 考虑 经 常 执行 的 关键 查询 优化 。 这 种 策略 兼顾 资 
源 使 用 和 查询 性 能 。 

另外 ,如 果 将 行 键 设计 为 二 进 制 字 节 型 数据 类 型 ， 则 可 以 在 不 牺牲 
行 键 内 容 的 情况 下 明显 缩短 行 键 长 度 , 但 这 样 做 的 缺点 是 行 键 的 可 读 性 
变 得 很 差 ， 在 进行 交互 查询 时 可 能 会 看 不 懂行 键 的 内 容 。 

2. 列 族 划分 


HBase 模式 设计 时 对 如 何 划分 列 族 几乎 没有 限制 , 但 其 中 却 很 有 讲 
究 ,， 列 族 的 不 同 设计 对 系统 性 能 的 影响 很 大 。 以 下 几 点 是 列 族 设计 的 通 
用 准则 : 





口 


3. 
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每 张 表 的 列 族 数 能 少 则 少 ， 尽 量 不 超过 三 个 。 因 为 Hbase 的 冲 
洗 〈flunshing) 和 压缩 操作 是 基于 HRegion 的 ， 当 一 个 列 族 所 
存储 的 数据 达到 冲洗 或 压缩 阔 值 时 ,该 HRegion 的 其 他 列 族 也 
将 同时 进行 冲洗 和 压缩 ， 如 果 表 的 列 族 数量 较 多 ， 将 造成 过 于 
频繁 的 冲洗 和 压缩 操作 。 

将 有 相同 访问 模式 的 所 有 数据 存储 在 同一 列 族 , 不 同 访问 模式 
的 数据 存储 在 不 同 列 族 ， 并 在 列 族 属性 中 定义 好 访问 模式 。 
如 果 某 些 列 数据 经 常 被 一 起 访问 而 不 需要 访问 其 他 列 的 数据 ， 
可 考虑 将 这 些 列 划分 为 一 个 列 族 ， 但 要 注意 表 中 的 列 族 总 数 不 
超过 3 个 。 

列 族 和 列 的 名 字 应 尽量 短 ， 建 议 列 族 名 用 一 个 字母 表示 ， 列 修 
饰 符 用 少数 几 个 字母 表示 ， 因 为 每 个 值 中 都 要 包括 列 名 。 和 关 
系数 据 库 中 字段 名 要 有 可 读 性 的 设计 准则 不 同 ，HBase 中 列 名 
设计 时 以 简短 为 原则 ， 这 是 由 二 者 数据 存储 方式 的 不 同 决定 的 。 
为 了 提高 读 性 能 ， 可 进行 反 规 范 化 设计 ， 即 在 多 张 表 中 储存 宛 
余数 据 ， 但 要 注意 元 余 设 计 会 对 写 性 能 有 影响 ， 也 会 增加 应 用 
程序 的 复杂 度 。 

HBase 不 支持 跨行 事务 ， 所 以 在 列 族 设计 时 要 避免 一 个 事务 涉 
及 多 行 数 据 。 

数据 量 估算 和 控制 


在 模式 设计 之 前 应 对 每 张 表 及 表 中 每 一 列 数据 的 大 小 进行 估算 , 以 
便 在 设计 时 配置 合适 的 属性 值 。 下 面 是 与 数据 量 相关 的 一 些 设计 准则 : 


口 





每 个 单元 的 大 小 最 好 不 超过 100KB， 如 果 超 过 100KB 应 考虑 
使 用 MOB (Medium-sized Objects) 文件 存储 ， 如 果 超 过 50MB 
则 应 考虑 将 数据 保存 在 HDFS 文件 中 , 在 HBase 中 仅 保存 文件 
的 访问 路 径 。 

每 个 HRegion 的 大 小 最 好 在 10GB 一 50GB 之 间 。 

每 张 表 的 HRegion 数量 以 不 超过 100 个 为 宜 。 

在 创建 表 的 时 候 预 估 数 据 量 , 据 此 预 分 配 足 够 数量 的 HRegion， 
从 而 避免 或 减少 日 后 对 HRegion 的 拆 分 。 

对 于 不 需要 长 期 保存 的 数据 ， 通 过 设置 合理 的 数据 过 期 时 间 可 
以 避免 大 量 过 期 数据 堆积 占用 系统 资源 、 影 响 性 能 。 

版 本 数量 尽 可 能 设置 得 小 一 些 或 使 用 默认 值 1。 

如 果 表 中 存储 的 是 基于 时 间 的 设备 数据 或 日 志 信息 ， 可 将 行 键 


设计 为 设备 ID/ 服 务 ID 加 上 时 间 。 由 于 不 需要 对 老 数据 进行 修 
改 , 即使 因为 大 量 历史 数据 产生 了 很 多 HRegeion, 实际 有 写 操 
作 的 HRegion 也 仅仅 是 最 新 的 一 小 部 分 , 这 种 情况 下 表 操 作 性 
能 不 会 因为 数据 量 大 而 受 影响 ， 可 以 不 考虑 每 张 表 的 HRegion 
数量 限制 。 
这 些 设计 准则 都 可 以 通过 列 族 属性 和 表 属 性 的 设置 来 实现 , 将 在 后 
面 介 绍 。 


4. 内 存 需 求 估算 和 配置 


在 模式 设计 之 前 还 应 根据 估算 的 数据 量 对 内 存 需求 进行 估算 , 如 果 
内 存 需 求 和 HBase 集群 中 所 能 实际 提供 的 内 存 相差 较 大 ， 则 应 未 雨 绸 
缪 寻找 解决 办 法 ， 如 对 集群 进行 扩容 升级 、 修 改 集群 参数 配置 以 扩大 内 
存 供给 、 模 式 设 计时 设法 减少 存储 的 数据 量 等 。 

内 存 需求 的 估算 方式 如 下 ,集群 的 hbase.hregion.memstore.flush.size 
参数 配置 了 每 个 Store 中 MemStore 的 大 小 , 集群 中 所 有 MemStore 合计 
所 需 的 最 大 内 存 通过 下 列 公式 估算 : 

MemStore 大 小 * HRegion 数量 * 每 个 HRegion 中 平均 列 族 数 

而 集群 参数 hbase.regionserver.global.memstore.size 配置 了 每 个 
HRegionServer 允许 的 所 有 MemStore 合计 大 小 上 限 ， 该 配置 值 乘 以 
HRegionServer 数量 即 为 整个 集群 为 所 有 MemStore 提供 的 合计 内 存 大 
小 。 如 果 因 为 HRegion 数量 过 大 造成 MemStore 内 存 需 求 远大 于 实际 内 
存 供给 ， 则 会 导致 系统 频繁 地 进行 MemStore 存盘 操作 而 影响 性 能 。 

ER MemStore 内 存 需 求 估算 公式 假设 每 个 列 族 上 都 经 常 有 写 操 
作 ， 如 果 仅 仅 部 分 列 族 有 频繁 的 写 操 作 ， 而 其 他 列 族 以 读 操 作为 主 ， 那 
么 在 计算 MemStore 所 需要 使 用 的 内 存 时 可 以 仅 考 虑 需要 经 常 进行 写 操 
作 的 列 族 。 


3.5.2 ” 列 族 属性 


HBase 表 的 每 个 列 族 上 都 支持 属性 定义 ， 可 以 在 表 创建 时 定义 ， 也 
可 以 在 表 创建 之 后 修改 属性 值 ,对 未 定义 的 属性 则 使 用 默认 值 。 所 有 支 
持 的 列 族 属性 都 在 类 org.apache.hadoop.hbase.HColumnDescriptor 中 定 
义 。 下 面 介 绍 经 常 使 用 的 列 族 属性 。 


1. BLOOMFILTER 


该 属性 定义 布 隆 过 滤器 类 型 。 布 隆 过 滤器 将 每 个 HFile 中 保存 的 数 
据 按 特定 算法 生成 索引 并 在 内 存 中 缓存 ， 目 的 是 当 用 set 命令 获取 数据 
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时 ， 可 以 通过 索引 确定 哪些 HFile 中 不 可 能 存在 目标 数据 ， 从 而 减少 磁 
# IO、 提 升 性 能 。 布 隆 过 滤器 的 特点 是 它 给 出 否定 结果 时 可 以 确保 是 
正确 的 ， 而 给 出 肯定 结果 时 则 不 一 定 正确 : 目标 数据 可 能 在 该 HFile 中 
存在 但 不 保证 一 定 存 在 。 BLOOMFILTER 可 选 的 属性 值 有 NONE, ROW 
和 ROWCOL， 默 认为 ROW。 各 属性 值 的 含义 如 下 。 


口 
n 





NONE: 表示 不 使 用 布 隆 过 滤 。 

ROW: 表示 使 用 基于 行 的 布 隆 过 滤 ， 即 生成 HFile 中 所 保存 数 
据 的 行 键 信息 ， 可 以 查询 某 行 键 是 否 在 HFile 中 存在 〈 当 然 答 
案 为 存在 时 不 保证 正确 )。 

ROWCOL: 表示 使 用 基于 行 和 列 的 布 隆 过 滤 ， 即 生成 HFile 中 
所 保存 数据 的 行 键 + 列 族 + 列 修饰 符 信息 。 显 然 该 属性 值 需要 占 
用 更 多 内 存 ， 但 当 查 询 某 一 单元 的 值 时 与 配置 为 ROW 相 比 ， 

该 属性 能 提供 更 加 准确 的 信息 ， 减 少 更 多 的 磁盘 读 。 


2. COMPRESSION 


该 属性 定义 是 否 以 压缩 方式 在 磁盘 上 存储 列 族 数据 及 压缩 编码 格 
R, 可 选 的 属性 值 有 NONE、GZ、LZ4、LZO 和 SNAPPY, 默认 为 NONE。 
各 属性 值 的 含义 如 下 。 


口 


口 口 口 


口 


NONE: 表示 不 压缩 。 

GZ: 表示 采用 GZ 压缩 算法 。 

LZ4: 表示 采用 LZ4 压缩 算法 ， 该 算法 在 Hadoop 库 中 提供 。 
LZO: 表示 采用 LZO 压缩 算法 ， 由 于 版 权 问 题 , 该 算法 库 需 由 
用 户 自行 安装 。 

SNAPPY: 表示 采用 SNAPPY 压缩 算法 ， 由 于 版 权 问 题 ， 该 算 
法 库 需 由 用 户 自行 安装 。 


需要 注意 该 属性 只 定义 数据 在 磁盘 上 的 压缩 存储 , 当 数 据 在 内 存 里 
(比如 在 MemStore 里 ) 或 通过 网 络 传输 时 都 是 不 压缩 的 。 在 生产 系统 
中 一 般 建 议 采 用 压缩 存储 ， 与 其 他 几 种 压缩 算法 相 比 ，GZ 的 压缩 度 比 
较 高 但 需要 消耗 更 多 CPU 资源 。 

3. DATA_BLOCK_ENCODING 


该 属性 定义 数据 块 编码 格式 , 可 减少 对 重复 的 键 信息 的 存储 来 节省 
空间 ， 可 选 的 属性 值 有 NONE, PREFIX, DIFF, FAST DIFF 和 
PREFIX_TREE， 默 认 值 为 NONE。 各 属性 值 的 含义 如 下 。 

O NONE: 表示 不 使 用 压缩 编码 格式 。 
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O PREFIX: 表示 使 用 前 缀 编码 格式 ， 如 果 本 单元 和 上 一 单元 键 
的 前 缀 部 分 相同 ， 则 该 部 分 不 再 重复 存储 。 键 由 行 键 、 列 族 名 
和 列 修 饰 符 连接 而 成 。 

口 DIFF: 表示 使 用 差异 编码 格式 , 键 的 各 组 成 部 分 如 果 和 上 一 单 

元 相同 则 不 再 保存 ， 还 压缩 了 时 间 恰 的 保存 方式 ， 仅 保存 和 上 

一 单元 时 间 戳 的 差异 值 。 

O FAST DIFF: 表示 使 用 快速 差异 编码 格式 ， 它 和 DIFF 类 似 ， 
但 采用 了 速度 更 快 的 实现 方法 ， 另 外 增加 了 一 个 标志 位 ， 标 志 
值 部 分 是 否 和 上 一 单元 相同 ， 如 相同 则 不 再 重复 存储 。 如 果 键 
很 长 或 者 列 很 多 时 建议 采用 该 属性 值 。 

O PREFIX TREE: 表示 采用 前 缀 树 编码 格式 ， 它 将 一 行 中 各 个 

单元 数据 关联 在 一 起 来 减 小 存储 空间 ， 压 缩 效果 和 前 级 编码 格 

式 类 似 ， 但 在 随机 查询 时 速度 更 快 ， 代 价 是 在 写 入 时 ， 编 码 速 

度 要 慢 一 些 。 该 属性 值 适用 于 块 缓存 命中 率 比 较 高 的 场景 ， 该 

场景 下 读 比较 频繁 而 写 操作 很 少 。 


4. VERSIONS 


该 属性 定义 列 族 单元 保存 的 数据 版 本 数量 ， 默 认 值 为 1。 多 个 版 本 
数据 是 按时 间 戳 的 降序 存储 的 ， 这 样 最 新 的 数据 首先 被 读 出 。 超 出 该 属 
性 值 的 老 版 本 数据 将 在 HRegion 主 压缩 时 删除 。 


5. MIN_VERSIONS 


该 属性 定义 列 族 存储 的 最 少 版 本 数 ， 默 认 值 为 0。 如 该 属性 值 大 于 
0 则 在 主 压缩 删除 过 期 数据 时 起 作用 。 设 其 为 n， 当 HRegion 主 压缩 删 
除 该 列 族 过 期 数据 时 ， 如 果 删 除 后 将 导致 某 单元 剩余 版 本 数量 少 于 n 
个 ， 则 该 单元 最 新 的 n 个 版 本 不 会 被 删除 。 


6. TTL 


该 属性 定义 数据 的 生存 时 间 ， 以 秒 为 单位 ， 默 认 值 为 FOREVER， 
表示 永远 不 过 期 。 该 属性 和 MIN_VERSIONS 联 用 ,在 HRegion 主 压缩 
时 将 删除 那些 已 经 超出 TTL 定义 的 生存 时 间 并 且 不 在 MIN_VERSIONS 
定义 的 最 少 版 本 数 保 护 范围 里 的 数据 。 如 果 MIN_VERSIONS 为 0， 即 
使 是 当前 版 本 数据 ,， 若 超过 生存 时 间 也 会 被 删除 。 对 于 不 需要 永久 保存 
的 数据 ,应 设置 合适 的 生存 时 间 以 避免 大 量 无 用 历史 数据 残留 ， 占 用 系 
统 资源 并 影响 查询 效率 。 
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T. KEEP_DELETED CELLS 


该 属性 定义 在 主 压 缩 时 是 否 清除 带 有 删除 标志 的 数据 以 及 在 查询 
时 是 否 返 回 带 有 删除 标志 的 数据 , 默认 值 为 false。 当 用 delete 命令 删除 
数据 时 , 仅 是 在 数据 上 加 上 删除 标志 , 在 正常 执行 get 命令 和 scan 命令 
时 不 返回 带 有 删除 标志 的 数据 , 但 如 果 在 get 命令 和 scan 命令 中 加 上 时 
间 范 围 过 滤器 (TIMERANGE)， 则 根据 每 个 列 族 的 KEEP_DELETED_ 
CELLS 属性 值 决定 是 否 返 回 在 所 选 时 间 范 围 内 的 带 有 删除 标志 的 数 
据 。 在 主 压 缩 时 也 根据 该 属性 值 决 定 是 否 清除 列 族 中 带 有 删除 标志 的 数 
据 ， 需 要 注意 即使 KEEP DELETED_CELLS 定义 为 tue， 如 果 带 有 删 
除 标志 的 数据 超过 了 生存 期 且 不 在 MIN_VERSIONS 保护 范围 内 ， 或 者 
超过 了 最 大 版 本 数量 ， 在 主 压缩 时 仍 会 被 清除 。 

8. BLOCKSIZE 

该 属性 定义 了 HFile 数据 块 的 大 小 ， 默 认 值 为 64KB。 如 果 每 个 单 
元 平均 数据 量 较 大 ， 则 应 定义 更 大 的 数据 块 。 每 个 HFile 的 索引 块 存 储 


了 每 个 数据 块 的 起 始 键 , 索引 块 大 小 和 数据 块 大 小 基本 成 反比 关系 ， 如 
果 数 据 块 变 为 原来 的 2 倍 大 ， 那 么 索引 块 的 大 小 大 概 是 原来 的 一 半 。 


9. BLOCKCACHE 

该 属性 定义 是 否 在 内 存 中 缓存 数据 块 ， 默认 值 为 true。 该 属性 仅 针 
对 普通 数据 块 ， 而 索引 块 和 布 隆 块 总 是 在 内 存 中 缓存 。 

10. IN_MEMORY 

该 属性 定义 了 列 族 是 否 优先 放 入 块 缓存 中 ， 默 认 值 为 false。 如 该 


属性 值 为 true， 则 该 列 族 的 数据 有 最 高 的 优先 级 保存 在 块 缓存 中 ， 但 并 
不 保证 其 所 有 数据 都 被 缓存 。 


11. REPLICATION_SCOPE 


该 属性 定义 了 列 族 是 否 在 其 他 HBase 集群 中 复制 以 及 复制 份 数 ， 
默认 值 为 0， 表示 不 在 其 他 集群 中 复制 。 如 需要 对 列 族 进 行 复制 ， 需 要 
搭建 HBase 从 集群 并 在 主 、 从 集群 上 进行 相应 配置 ， 在 从 集群 上 要 创 
建 好 需要 复制 的 表 , 然后 启动 复制 。 这 里 不 介绍 具体 的 操作 步骤 ， 如 有 
兴趣 读者 可 参考 HBase 官方 文档 。 


3.5.3 RE 
在 HBase 整 张 表 上 定义 的 属性 称 为 表 属 性 ， 表 属性 可 以 在 表 创建 
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时 定义 ， 也 可 以 在 表 创建 之 后 修改 。 下 面 介绍 经 常 使 用 的 表 属 性 。 
1. SPLITS、SPLITS_FILE、NUMREGIONS、SPLITALGO 


最 常 使 用 的 表 属 性 是 对 表 进 行 预 拆 分 , 在 表 创 建 和 修改 时 有 好 几 种 
对 表 进 行 预 拆 分 的 方法 。 

最 简单 的 方法 是 提供 拆 分 点 数组 , 该 数组 为 按 升序 排列 的 行 键 拆 分 
点 , 按照 这 些 行 键 拆 分 点 将 表 的 HRegion 预先 创建 好 , 如 有 n 个 行 键 拆 
分 点 ， 则 预 创 建 n+1 个 HRegion。 下 面 是 创建 表 时 通过 SPLITS 属性 提 
供 行 键 拆 分 点 的 示例 : 


hbase(main):019:0> create 't4', 'f1', SPLITS => ['100', '200', '300'] 
0 row(s) in 4.5240 seconds 


=> Hbase::Table - t4 
hbase(main):020:0> 


上 述 命令 在 创建 t4 表 时 给 出 了 3 个 拆 分 点 ， 因 此 会 预 创 建 4 个 
HRegion， 第 一 个 HRegion 存放 行 键 小 于 '100' 的 数据 ， 第 二 个 HRegion 
存放 行 键 大 于 等 于 '100' 但 小 于 '200' 的 数据 ， 依 此 类 推 。 注 意 行 键 与 拆 分 
点 的 比较 是 按照 底层 的 字 节 表示 进行 比较 的 , 拆 分 点 '100' 的 底层 字 节 表 
示 是 \x31\30\30'。 

如 果 拆 分 点 很 多 ， 则 可 以 将 拆 分 点 保存 在 文本 文件 中 , 每 个 拆 分 点 
单独 一 行 ， 在 create 命令 中 通过 SPLITS_FILE 属性 指定 拆 分 点 文件 ， 
示例 如 下 : 


hbase(main):026:0> create 't5', 'f1', SPLITS_FILE => 'splits.txt' 
0 row(s) in 4.4250 seconds 


=> Hbase::Table - t5 
hbase(main):027:0> 


上 述 命令 创建 t5 表 时 从 本 地 文件 系统 的 当前 路 径 中 读 取 拆 分 点 文 
件 splits.txt, 根据 文件 中 给 出 的 拆 分 点 预 创建 HRegion。 注意 在 splits.txt 
文件 中 行 键 前 后 不 应 该 再 加 单 引 号 。 

还 有 一 种 通过 给 出 HRegion 数量 和 拆 分 算法 来 自动 计算 出 拆 分 点 
的 方法 ， 对 应 的 表 属 性 分 别 是 NUMREGIONS 和 SPLITALGO。HBase 
支持 的 拆 分 算法 包括 UniformSplit 和 HexStringSplit: UniformSplit 按照 
二 进 制 均匀 计算 拆 分 点 ， 适 用 于 行 键 为 随机 二 进 制 数 的 场景 ; 
HexStringSplit 按照 十 六 进 制 数 表示 法 均匀 计算 拆 分 点 ， 适 用 于 行 键 为 
十 六 进 制 数 的 场景 。 也 可 以 自己 编写 拆 分 算法 。 示 例如 下 : 





hbase(main):036:0> create 't6', 'f1', NUMREGIONS => 4, SPLITALGO => 
"HexStringSplit 
0 row(s) in 4.8980 seconds 


=> Hbase::Table - t6 

hbase(main):037:0> 

上 述 命令 创建 t6 表 时 采用 HexStringSplit 算法 预 创 建 4 个 HRegion， 
计算 出 的 三 个 拆 分 点 分 别 是 '40000000'、'80000000' 和 'c0000000'。 

需要 注意 truncate 命令 将 删除 一 张 表 的 所 有 HRegion， 然 后 重新 创 
建 该 表 ， 重 新 创建 时 不 会 预 创 建 HRegion。 如 果 需 要 在 删除 全 部 数据 的 
同时 保留 原来 每 个 HRegion 的 边界 ， 可 使 用 truncate preserve 命令 。 


2. READONLY 


设置 该 属性 值 为 true 则 将 表 定 义 为 只 读 表 。 该 属性 一 般 用 在 不 再 有 数 
据 更 新 的 历史 表 上 , 通过 alter 命令 设置 其 READONLY 属性 为 tue 后 , 不 
能 再 对 其 执行 put、delete 操作 ， 但 仍 可 执行 truncate 操作 删除 全 部 数据 。 


3. DURABILITY 


该 属性 定义 了 WAL (Write Ahead Log， 实 现 类 为 HLog) 日 志 的 持久 
化 策略 。WAL 日 志 记 录 了 表 上 面 的 所 有 写 操作 ， 可 用 于 灾难 恢复 ， 当 服 
务 器 朋 演 时 ， 通 过 重 放 WAL 日 志 可 恢复 崩溃 之 前 的 数据 。DURABILITY 
可 选 的 属性 值 有 SYNC_WAL、ASYNC_WAL、FSYNC_WAL、SKIP_WAL 
和 USE_DEFAULT， 默 认 值 为 USE_DEFAULT。 各 属性 值 的 含义 如 下 : 
口 SYNC_WAL: 表示 采用 同步 方式 写 WAL 日 志 ， 写 入 WAL 后 ， 
put、delete 等 操作 才 返 回 成 功 。 
O ASYNC_WAL: 表示 采用 异步 方式 写 WAL 日 志 ， 不 需要 等 待 
写 入 WAL， 直 接 返 回 操作 成 功 。 
O FSYNC_WAL: 表示 采用 同步 方式 写 WAL H&E, 并且 强制 将 
WAL 刷新 到 磁盘 上 。 
O SKIP WAL: 表示 不 写 入 WAL 上 日志。 该 属性 值 存 在 服务 器 崩 
溃 后 数据 无 法 恢复 的 风险 ， 一 般 在 批量 导入 数据 时 使 用 ， 可 加 
快 导入 速度 ， 万 一 系统 崩溃 还 可 以 重新 导入 数据 ， 不 会 导致 数 
USE DEFAULT: 表示 使 用 HBase 的 全 局 默认 值 SYNC_WAL。 








MAX_FILESIZE 
该 属性 值 定义 了 该 表 的 每 个 HRegion 中 所 有 HFile 合计 大 小 上 限 ， 


y > D 





默认 值 为 集群 配置 项 hbase.hregion.max.filesize 的 配置 值 。 当 HRegion 
中 HFile 合计 大 小 超出 该 属性 值 时 ， 将 自动 拆 分 为 两 个 HRegion。 
5. MEMSTORE_ FLUSHSIZE 


该 属性 值 定义 了 表 的 MemStore 大 小 上 限 ， 默 认 值 为 集群 配置 项 
hbase.hregion.memstore.flush.size 的 配置 值 。 当 MemStore 大 小 超出 该 属 
性 值 时 则 将 其 写 入 磁盘 的 StoreFile 中 。 


3.5.4 设计 实例 


下 面 以 实际 应 用 场景 为 例 介 绍 如 何 进 行 HBase 的 模式 设计 。 在 一 
个 电 商 平台 上 ,主要 有 客户 数据 、 商 品 数 据 和 订单 数据 ， 商 品 又 划分 为 
食品 、 服 装 、 电 器 等 不 同类 别 。HBase 的 模式 设计 非常 简单 灵活 ， 针 对 
上 述 电 商 平台 的 数据 有 很 多 种 不 同 的 模式 设计 方法 , 但 究竟 如 何 选择 需 
要 考虑 主要 的 应 用 需求 ， 实 际 的 电 商 平台 应 用 需要 解决 的 问题 有 以 下 
几 类 : 

口 统计 每 类 商品 或 每 款 商品 的 销售 情况 。 
O 查询 每 类 商品 或 每 款 商 品 的 购买 客户 列表 ， 以 便 对 购买 人 群 进 
行 特征 分 析 。 
D 查询 某 个 客户 购买 的 商品 列表 ， 以 便 分 析 其 个 人 喜好 。 
可 以 发 现 上 述 几 个 应 用 需求 都 是 围绕 着 订单 数据 进行 的 , 所 以 模式 
设计 的 重点 应 该 是 设计 好 订单 数据 表 , 以 便 在 对 其 进行 查询 时 具备 比较 
好 的 性 能 ， 而 其 关键 就 在 于 行 键 设计 ,理想 的 情况 是 能 通过 行 键 索引 进 
行 查询 。 

针对 前 两 类 问题 ， 可 以 将 订单 表 的 行 键 设计 为 商品 ID+ 客 户 ID+ 订 
单 时 间 戳 的 组 合 ,其 中 商品 ID 和 客户 ID 分 别 为 商品 表 和 客户 表 的 行 键 ， 
这 样 无 论 是 统计 每 款 商品 的 销售 情况 还 是 查询 每 款 商 品 的 购买 客户 列 
表 , 都 可 以 通过 行 键 索引 查询 行 键 前 缀 ,相应 数据 在 HRegion 中 也 是 顺 
序 存放 的 , 具有 非常 好 的 查询 性 能 。 但 该 行 键 设计 对 于 第 三 类 问题 而 言 ， 
由 于 某 个 客户 购买 的 商品 列表 是 分 散在 各 个 文件 中 的 , 所 以 查询 性 能 不 
佳 。 因 为 行 键 设计 无 法 兼顾 所 有 查询 优化 ， 只 能 根据 重要 性 进行 取舍 。 

因为 查询 统计 不 仅 会 针对 每 款 商品 ,还 会 针对 每 类 商品 进行 ， 所 以 
可 以 将 商品 ID 设计 为 商品 类 别 ID+ 顺 序 编号 ， 这 样 针 对 某 个 商品 类 别 
进行 统计 查询 时 一 样 可 以 通过 行 键 前 级 进行 。 

接 下 来 要 考虑 每 张 表 中 要 创建 哪些 列 族 ， 基 于 列 族 尽量 少 的 原则 ， 
对 于 商品 表 和 客户 表 ， 可 以 只 建 一 个 列 族 ， 对 于 订单 表 ， 可 以 建 两 个 列 





族 ， 一 个 列 族 存 放 订 单 相关 数据 ， 比 如 订单 金额 、 收 货 地 址 等 ， 解 决 第 
一 类 问题 时 仅 查询 该 列 族 数 据 即 可 ; 另 一 个 列 族 存放 客户 特征 数据 ， 是 
为 了 对 购买 人 群 进行 特征 分 析 使 用 的 。 虽然 客户 特征 数据 也 可 以 根据 客户 
ID 查询 客户 表 获 取 ， 但 在 订单 表 中 直接 保存 可 以 显著 提升 第 二 类 问题 的 
查询 性 能 , 例如 有 几 十 万 客户 曾经 购买 过 某 类 商品 ， 如 果 都 需要 通过 查询 
客户 表 来 获取 客户 特征 数据 ， 将 造成 严重 的 性 能 问题 。 注 意 不 需要 在 订 
单 表 中 保存 所 有 客户 数据 ， 比 如 姓名 、 联 系 方式 这 些 与 特征 无 关 的 数据 
不 需要 在 订单 表 中 元 余 存储 ， 仅 保存 与 客户 特征 分 析 相 关 的 数据 即 可 。 

如 果 第 三 类 问题 的 性 能 对 应 用 也 非常 关键 , 可 以 通过 元 余数 据 表 来 
解决 ， 专 门 建 一 张 客户 购买 记录 表 ， 以 客户 ID+ 商 品 ID+ 订 单 时 间 戳 的 
组 合作 为 行 键 , 仅 有 一 个 列 族 用 来 保存 分 析 客户 个 人 喜好 所 需要 的 相关 
信息 ， 如 商品 名 称 、 品 牌 、 价 格 等 。 

最 后 需要 考虑 下 列 族 属性 和 表 属 性 的 设计 。 商 品 表 使 用 频率 非常 
高 ， 可 以 设计 IN MEMORY 属性 优先 缓存 。 为 追踪 商品 历史 信息 ， 商 
品 数 据 应 保存 多 个 版 本 。 为 节省 存储 空间 ， 可 将 数据 压缩 存储 ， 对 数据 
块 采 用 前 级 编码 格式 。 对 于 商品 表 和 订单 表 , 可 考虑 根据 商品 类 别 进行 
预 拆 分 , 为 了 使 预 拆 分 的 各 个 HRegion 负载 比较 均衡 ,可 以 使 负载 比较 
小 的 商品 类 别 编号 相 邻 并 分 入 同一 个 HRegion 中 ,而 比较 大 的 商品 类 别 
则 单独 分 在 一 个 HRegion 中 。 

根据 上 述 模式 设计 在 HBase Shell 中 创建 表 的 示例 如 下 : 

hbase(main):002:0> create 'customer', (NAME=>'c', COMPRESSION=>'GZ', 


DATA_BLOCK_ENCODING=>'PREFIX') 
0 row(s) in 4.8250 seconds 


=> Hbase::Table - customer 

hbase(main):003:0> create 'goods', {NAME=>'g', COMPRESSION=>'GZ', 
DATA_BLOCK_ENCODING=>'PREFIX', IN_MEMORY=>'true', VERSIONS=>10), 
SPLITS=>['01', '02", *03', *04', '06', '08', '40', '43', '46'] 

0 row(s) in 4.4800 seconds 


=> Hbase::Table - goods 

hbase(main):004:0> create 'order', (NAME=>'o', COMPRESSION=>'GZ', 
DATA_BLOCK_ENCODING=>'PREFIX'), (NAME=>'c', COMPRESSION=>'GZ', 
DATA_BLOCK_ENCODING=>'PREFIX'), SPLITS=>['01', '02', '03', '04', '06', 
*08', '10', '43', '46'] 

0 row(s) in 4.4010 seconds 


=> Hbase::Table - order 
hbase(main):005:0> create 'customer_order', (NAME=>'g', COMPRESSION=>'GZ', 





DATA_BLOCK_ENCODING=>'PREFIX') 
0 row(s) in 4.3780 seconds 


=> Hbase::Table - customer_order 

hbase(main):006:0> 

上 述 命令 共 创建 了 如 下 4 张 表 。 

O customer: 客户 表 。 只 有 一 个 列 族 ， 基 于 列 族 名 尽量 短 的 原则 ， 
设 列 族 名 为 ce， 设置 了 列 族 属性 COMPRESSION 为 GZ 方式 压 
缩 存储 ，DATA BLOCK ENCODING 为 PREFIX 编码 格式 。 

O goods: 商品 表 。 只 有 一 个 列 族 g， 除 了 和 客户 表 一 样 设置 了 
COMPRESSION 和 DATA BLOCK _ENCODING 属性 外 ， 还 设 
置 了 IN MEMROY 属性 为 true, VERSIONS 属性 为 10， 即 保 
存 10 个 历史 版 本 数据 。 按 照 商品 类 别 将 其 预 拆 分 成 10 个 
HRegion, 商品 类 别 编号 为 从 01 开始 的 两 位 数字 , 命令 中 给 出 
了 9 个 类 别 编号 拆 分 点 。 

O order: 订单 表 。 有 两 个 列 族 o 和 c， 其 中 列 族 o 保存 订单 信息 ， 
列 族 c 保存 对 购买 人 群 进行 特征 分 析 所 需 的 客户 信息 ， 属 于 为 
查询 优化 而 保存 的 客户 表 元 余 信 息 。 订单 表 采取 了 和 商品 表 同 
样 的 拆 分 方法 ， 预 拆 分 为 10 个 HRegion。 

O customer order: 客户 购买 记录 表 ， 以 客户 ID+ 商 品 ID+ 订 单 时 
间 戳 为 行 键 ， 专 门 供 分 析 个 体 客 户 的 个 人 喜好 使 用 ， 只 有 一 个 
列 族 g 保存 分 析 客户 喜好 所 需 的 那 部 分 信息 。 

在 此 基础 上 进行 业务 所 需要 的 查询 很 简单 , 例如 要 查询 所 有 购买 商 

品 02000003 的 客户 列表 ， 可 通过 如 下 命令 获取 : 


hbase(main):018:0> scan “order， (ROWPREFIXFILTER=>'02000003', 


COLUMNS=>'c') 

ROW COLUMN+CELL 
020000030000001220170322150600 column=c:age, timestamp=1490115669063, 
value=22 


020000030000001220170322150600 column=c:gender， timestamp= 
1490115622631, value=male 
1 row(s) in 0.0470 seconds 


hbase(main):019:0> 


上 述 示例 命令 中 使 用 了 行 键 前 缀 过 滤器 和 列 过 滤器 ， 表 示 查 询 
order 表 中 行 键 以 '02000003' 开 头 的 列 族 c 的 所 有 数据 。 


3.6 HBase 安全 


在 生产 环境 中 系统 和 数据 的 安全 性 是 必须 要 考虑 的 重要 因素 ， 
HBase 也 不 例外 , 它 提供 了 一 系列 完整 的 安全 访问 和 权限 控制 手段 来 保 
证 系统 各 组 件 和 数据 的 安全 性 。 本 节 从 安全 访问 配置 和 数据 访问 权限 控 
制 两 方面 来 介绍 HBase 安全 管理 。 


3.6.1 ”安全 访问 配置 

1. 客户 端 安 全 访问 

默认 配置 下 客户 端 可 以 不 需要 认证 直接 访问 HBase 集群 ， 只 要 网 络 
连通 即 可 。 可 以 通过 在 每 台 服 务 器 的 hbase-site.xml 配置 文件 中 设置 hbase. 
security.authentication 、 hbase.security.authorization 、 hbase.coprocessor. 


region.classes 等 属性 来 要 求 客户 端 必须 通过 Kerberos 认证 才能 访问 
HBase。 配 置 示例 如 下 : 


<property> 
<name>hbase.security.authentication</name> 
<value>kerberos</value> 
</property> 
<property> 
<name>hbase.security.authorization</name> 
<value>true</value> 
</property> 
<property> 
<name>hbase.coprocessor.region.classes</name> 
<value>org.apache.hadoop.hbase.security.token.TokenProvider</value> 
</property> 
进行 上 述 配 置 修改 之 后 ， 必 须 关闭 整个 HBase 集群 再 重新 启动 才 
能 生效 。 
客户 端 也 需要 在 hbase-site.xml 中 将 hbase.security.authentication 设 
置 为 kerberos 才能 访问 集群 ， 如 果 客 户 端 和 服务 器 端 该 参数 配置 不 一 
致 ， 它 们 之 间 将 无 法 进行 通信 。 配 置 示例 如 下 : 
<property> 


<name>hbase.security.authentication</name> 
<value>kerberos</value> 


</property> 
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由 于 要 求 进行 Kerberos 认证 才能 访问 ， 客 户 端 必须 在 Kerberos 认 
证 服务 器 登记 并 获取 HBase 服务 器 的 授权 票据 ， 和 否则 无 法 通过 认证 。 
具体 步骤 限于 篇 幅 不 在 本 书 中 介绍 。 


2. 客户 端 简单 访问 控制 


和 前 面 的 安全 访问 不 同 ， 客 户 端 简单 访问 控制 并 不 能 阻止 黑客 攻 
击 ， 只 是 一 种 很 方便 的 通过 设置 用 户 权限 来 进行 访问 控制 的 方法 ， 可 防 
止 误 操作 。 如 果 要 提升 系统 的 安全 性 ， 需 要 采用 前 面 介绍 的 客户 端 安全 
访问 ， 配 置 Kerberos 认证 。 

采用 客户 端 简单 访问 控制 ， 每 台 服 务 器 的 hbase-site.xml 中 应 配置 
如 下 属性 : 


<property> 
<name>hbase.security.authentication</name> 
<value>simple</value> 
</property> 
<property> 
<name>hbase.security.authorization</name> 
<value>true</value> 
</property> 
<property> 
<name>hbase.coprocessor.master.classes</name> 
<value>org.apache.hadoop.hbase.security.access.AccessController</value> 
</property> 
<property> 
<name>hbase.coprocessor.region.classes</name> 
<value>org.apache.hadoop.hbase.security.access.AccessController</value> 
</property> 
<property> 
<name>hbase.coprocessor.regionserver.classes</name> 
<value>org.apache.hadoop.hbase.security.access.AccessController</value> 
</property> 


进行 上 述 配置 修改 之 后 ， 必 须 关 闭 整个 HBase 集群 再 重新 启动 才 
能 生效 。 
客户 端 也 需要 在 hbase-site.xml 中 将 hbase.security.authentication 设 
置 为 simple 才能 访问 集群 : 
<property> 
<name>hbase.security.authentication</name> 


<value>simple</value> 
</property> 
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3.6.2 ”数据 访问 权限 控制 


在 配置 了 客户 端 安全 访问 或 简单 访问 控制 之 后 , 普通 用 户 默认 没有 
任何 访问 权限 ， 必 须 经 过 授权 才能 获得 HBase 集群 中 相应 数据 的 访问 
权限 。 授 权 既 可 以 针对 单个 用 户 ， 也 可 以 针对 一 个 组 ， 注 意 这 里 的 组 并 
非 指 操作 系统 的 用 户 组 ， 而 是 Hadoop 的 组 映射 (group mapper) 中 定 


义 的 组 。 


HBase 中 的 数据 访问 权限 分 为 以 下 5 种 彼此 独立 的 级 别 , 每 个 级 别 
对 应 不 同 的 操作 类 型 。 


口 
口 


口 


口 
口 


及 


Read (R): 读 权限 ， 可 以 读 取 指定 范围 内 的 数据 。 

Write (W): 写 权 限 ， 可 以 在 指定 范围 内 写 数 据 ， 包 括 增加 、 
删除 。 

Execute (X): 执行 权限 ， 可 以 在 指定 范围 内 执行 HBase 协 处 
理 器 终端 程序 (coprocessor endpoints )。 

Create (C): 创建 权限 ， 可 以 在 指定 范围 内 创建 、 删 除 表 。 
Admin (A): 管理 权限 ， 可 以 在 指定 范围 内 执行 分 配 HRegion、 
平衡 负载 等 集群 操作 。 


. W. X. C. A 分别 是 上 述 5 种 级 别 的 权限 标识 符 ， 在 给 用 户 授 


权时 可 以 指定 其 中 的 一 种 或 几 种 ,同时 还 会 指定 权限 的 作用 范围 。 作 用 
范围 包含 如 下 几 种 。 


口 
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超级 用 户 (Superuser): 可 以 对 任意 对 象 执 行 所 有 操作 。 超 级 
用 户 包 括 启 动 HBase 的 用 户 以 及 hbase-site.xml 中 的 配置 项 
hbase.superuser 所 指定 的 用 户 ， 超 级 用 户 无 须 经 过 授权 即 自动 
获得 所 有 访问 权限 。 

全 局 (Global): 允许 在 集群 的 所 有 表 上 执行 操作 。 

命名 空间 : 允许 在 指定 命名 空间 的 所 有 表 上 执行 操作 。 

表 : 允许 在 指定 表 的 数据 或 元 数据 上 执行 操作 。 

列 族 : 允许 在 指定 列 族 的 单元 上 执行 操作 。 

列 : 允许 在 指定 列 的 单元 上 执行 操作 。 


各 种 权限 级 别 和 作用 范围 组 合 在 一 起 可 以 实现 非常 细 粒 度 的 权限 
控制 , 在 对 用 户 授权 时 需要 特别 注意 全 局 管理 权限 仅 能 授权 给 可 以 信任 
的 用 户 ， 因 为 如 果 管 理 权 限 的 作用 范围 是 全 局 , 那么 用 户 可 以 授权 自己 
拥有 任意 表 的 读 写 权 限 , 甚 至 可 以 绕 过 正常 的 权限 控制 流程 直接 向 ACL 

(Access Control Labels) 表 中 插入 数据 来 模拟 授权 操作 。 
在 HBase Shell 中 可 以 通过 grant 命 令 来 进行 授权 ,其 语法 格式 如 下 : 


99 一 
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grant <user>, <permissions> [, <@namespace> | <table> [, <column 
family> [, <column qualifier>]]] 

其 中 前 两 个 参数 是 必需 的 , 第 一 个 参数 是 用 户 名 或 组 名 , 如 为 组 名 ， 
则 需 加 上 @ 作 为 前 级 ,HBase 在 执行 grant 命令 时 并 不 进行 用 户 名 校对 ， 
所 以 即使 用 户 名 并 不 存在 命令 仍然 能 执行 成 功 .第 二 个 参数 为 权限 标识 
符 RWXCA 的 任意 组 合 。 后 面 的 参数 是 可 选 的， 表示 权限 的 作用 范围 ， 
可 以 为 命名 空间 、 表 、 列 族 或 者 列 ， 如 果 没 有 后 续 参 数 则 表示 作用 范围 
为 全 局 。 注 意 当 命名 空间 单独 作为 一 个 参数 时 ， 需 要 加 上 人 @ 前 绥 。 下 面 
是 grant 命令 执行 示例 : 


hbase(main):138:0> grant 'user1', 'RW', 'default:t1' 
0 row(s) in 0.3480 seconds 


hbase(main):139:0> grant 'user2', 'RWCX', '@default' 
0 row(s) in 0.3370 seconds 


hbase(main):140:0> 

上 述 第 一 条 命令 给 用 户 userl 授权 default:tl 表 的 RW 权限 ,第 二 条 
命令 给 用 户 user2 授权 default 命名 空间 的 RWCX 权限 。 

权限 回收 命令 revoke 格式 和 grant 命令 类 似 , 只 是 少 了 第 二 个 表示 
权限 标识 符 的 参数 , 含义 是 回收 该 用 户 在 指定 范围 内 的 所 有 权限 , 命令 
示例 如 下 : 

hbase(main):154:0> revoke 'user1', 'default:t1' 


0 row(s) in 0.2700 seconds 


hbase(main):155:0> revoke 'user2', '@default' 
0 row(s) in 0.2520 seconds 


hbase(main):156:0> 


注意 revoke 命令 的 作用 范围 参数 必须 和 grant 命令 一 致 才 能 成 功 回 
收 权限 ， 否 则 不 论 给 出 的 作用 范围 是 更 大 还 是 更 小 都 不 会 回收 权限 。 








实验 2 ”HBase 集群 搭建 
实验 目的 
本 实验 的 目的 如 下 : 


O 掌握 HBase 体系 架构 。 
口 掌握 HBase 集群 安装 部 署 步骤 。 
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Hadoop 


口 掌握 HBase Shell 一 些 常 用 命令 的 使 用 。 
实验 要 求 


本 实验 的 要 求 如 下 : 
O 部 署 一 个 主 节点 、 三 个 子 节点 的 HBase 集群 。 
口 进入 HBase Shell, 通过 命令 练习 创建 表 、 插 入 数据 及 查询 等 命令 。 


实验 步骤 


本 实验 要 部 署 HBase 集群 ,由 于 HBase 依赖 于 HDFS, 所 以 首先 要 
安装 Hadoop 集群 。 本 实验 的 步骤 如 下 : 

(1) 在 准备 安装 HBase 集群 的 4 台 服 务 器 上 配置 彼此 之 间 的 SSH 
无 密码 登录 ， 具 体 步 骤 请 参考 实验 1。 

(2) 在 4 台 服 务 器 上 安装 2.7.3 版 本 的 Hadoop 集群 并 启动 ， 具 体 

(3) £ 4 台 服 务 器 上 安装 1.2.4 版 本 的 HBase 集群 ， 具 体 步骤 请 
参考 3.2.4。 

(4) 启动 HBase 集群 。 

(5) 在 各 节点 上 执行 jps 命令 检查 启动 的 进程 。 

(6) 通过 访问 HBase Web 页 面 检 查 集 群 状态 。 

( 7) 进入 HBase Shell, 执行 create、 list、describe、put、scan、get、 
disable, drop 等 操作 ， 操 作 命 令 格 式 参考 3.4.1 节 ， 示 例如 下 : 


create 'test' , 'f1' 





list 

describe 'test' 

put 'test', 'r01', 'fl:name', 'Zhang San' 
put 'test', 'r01', 'fl:gender', 'Male' 
scan 'test' 

get 'test', 'r01' 

disable 'test' 

drop 'test' 

list 


习题 3 


1. HBase 集群 中 HMaster, HRegionServer 和 ZooKeeper 的 主要 作 
用 分 别 是 什么 ? 


101 = 


2. HBase 有 哪 几 种 部 署 方式 ? 它们 的 主要 区 别 是 什么 ? 

3. HBase 集群 有 哪些 配置 文件 ?它们 的 主要 作用 分 别 是 什么 ? 

4. HBase Shell 有 哪些 DDL 命令 和 DML 命令 ? 请 分 别 对 它们 作 
简要 描述 。 

5. 你 认为 应 如 何 进 行 HBase 的 行 键 设计 ? 

6. 对 HBase 表 划 分 列 族 时 应 遵循 哪些 原则 ? 

7. HBase 表 有 哪些 列 族 属性 和 表 属 性 ? 请 分 别 进行 简要 描述 。 

8. HBase 中 数据 访问 有 哪 几 种 权限 级 别 ? 它们 的 作用 范围 有 哪些 ? 
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数据 仓库 工具 Hive 


Hive 是 一 个 构建 于 Hadoop 的 HDFS 和 MapReduce 之 上 ， 用 于 管 
理 和 查询 结构 化 / 非 结 构 化 数据 的 数据 仓库 工具 ， 可 以 将 结构 化 的 数据 
文件 映射 为 一 张 数据 库 表 ， 适 合 数据 仓库 的 统计 分 析 。Hive 是 Hadoop 
生态 圈 中 的 重要 项 目 ， 是 目前 企业 数据 仓库 的 主流 架构 之 一 。 

Hive 的 优点 是 学 习 成 本 低 ， 通 过 类 SQL 语句 快速 实现 简单 的 
MapReduce 统计 ， 不 必 开 发 专门 的 MapReduce 应 用 。Hive 的 不 足 是 它 
构建 在 基于 静态 批 处 理 的 Hadoop 之 上 , 通常 有 较 高 的 延迟 并 且 在 作业 
提交 和 调度 的 时 候 需 要 大 量 的 开销 , 不 能 够 在 大 规模 数据 集 上 实现 低 延 
述 快速 查询 。 因 此 Hive 的 最 佳 使 用 场合 是 大 数据 集 的 批 处 理 作业 ， 例 
如 ， 网 络 日 志 分 析 。Hive 不 适合 复杂 的 机 器 学 习 算法 、 复 杂 的 科学 计 
算 和 联机 交互 式 实 时 查询 等 场景 。 

本 章 对 Hive 进行 较为 系统 全 面 的 介绍 , 内 容 包 括 Hive 的 工作 原理 
和 体系 架构 、Hive 的 三 种 部 署 方 法 (内 嵌 模 式 部 署 、 独 立 模 式 部 署 和 
远程 模式 部 署 )、Hive 的 配置 文件 和 配置 方法 以 及 Hive 表 DDL 操作 和 
DML 操作 。 通 过 本 章 学 习 和 实验 , 读者 可 以 熟悉 Hive 管理 和 操作 数据 
的 方式 ， 从 而 对 Hive 有 一 个 全 面 的 认识 。 


4.1 Hive 简介 


Hive 起 源 于 Facebook, 2008 年 Facebook 将 Hive 项 目 贡献 给 Apache, 
成 为 其 开源 项 目 ， 目 前 最 新 版 本 为 hive-2.1.1。 


4.1.1 工作 原理 


Hive 非常 简单 ,本质 上 是 一 个 SQL 解析 引擎 ， 它 将 SQL 语句 转译 
成 MapReduce 作业 并 在 Hadoop 上 执行 。Hive 提供 了 类 似 于 SQL 语法 
的 HQL 语句 作为 数据 访问 接口 ， 让 精通 SQL 的 分 析 师 能 够 以 类 SQL 
的 方式 管理 和 查询 存储 在 HDFS 上 的 数据 ， 实 现 简单 的 MapReduce 统 
计 而 不 必 开 发 专门 的 MapReduce 应 用 。 
Hadoop 本 身 不 能 识别 Hive, 但 是 它 通 过 Hive 架构 可 转化 成 Hadoop 
能 识别 的 一 个 个 任务 。 如 图 4-1 所 示 ，Hive 执行 过 程 可 概括 如 下 : 
(1) 用 户 通过 用 户 接 口 连 接 Hive， 发 布 Hive QL。 
(2) Hive 解析 查询 并 制订 查询 计划 。 
(3) Hive 将 查询 转换 成 MapReduce 作业 。 
(4) Hive 在 Hadoop 上 执行 MapReduce 作业 。 
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4-1 Hive 的 工作 原理 


由 上 述 Hive 执行 过 程 可 知 ， 用 户 发 出 SQL 请 求 ， 经 过 Hive 处 理 ， 
转换 成 可 在 hadoop 上 执行 的 MapReduce 作业 。 因 此 ，Hive 本 质 上 相当 
于 MapReduce 和 HDFS 的 翻译 终端 。 


4.1.2 体系 架构 























Hive 本 身 建立 在 Hadoop 体系 之 上 ， 主 要 是 提供 了 一 个 SQL 解析 
过 程 。Hive 在 Hadoop 中 的 位 置 如 图 4-2 所 示 。 因 此 在 执行 Hive 操作 之 
前 要 确保 Hadoop 集群 环境 及 其 MapReduce 组 件 已 启动 且 运 行 正常 , 否 
则 相关 Hive 操作 会 执行 失败 。 

Hive 组 成 部 分 分 为 Hive 客户 端 和 Hive 服务 端 。Hive 客户 端 包括 
Hive Thrift 客户 端 、JDBC 客户 端 和 ODBC 客户 端 等 。 用 户 通过 Hive 
客户 端 访问 Thrift 服务 端 。 Hive Thrift 客户 端 为 编写 Python, C++, PHP 
等 应 用 程序 ， 使 用 Hive 操作 提供 了 方便 。JDBC 客户 端 封 装 了 Thrift， 
java 应 用 程序 , 可 以 通过 指定 的 主机 和 端口 连接 到 在 另 一 个 进程 中 运行 
的 Hive 服务 器 。ODBC 客户 端 允许 支持 ODBC 协议 的 应 用 程序 连接 到 


Hive 服务 端 ， 执 行 相关 的 操作 。Hive 服务 端 提供 Hive Shell 命令 行 接 
口 、Hive Web 接口 和 为 不 同 应 用 程序 提供 多 种 服务 的 Hive Server， 实 
现 上 述 Hive 服务 操作 与 存储 在 Hadoop 上 的 数据 之 间 的 交互 。Hive 的 
体系 架构 如 图 4-3 所 示 ， 主 要 包含 Shell 环境 、 元 数据 库 、 解 析 器 等 组 
件 ， 按 功能 主要 分 为 5 大 模块 。 
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4-3 Hive 的 体系 架构 
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1. 用 户 接口 


用 户 接口 包括 CLI Hive 客户 端 和 Web 接口 ,其 中 最 常用 的 是 CLI。 

O “CLI 命令 行 接口 : 是 Hive 提供 的 标准 接口 , 也 是 最 常用 的 用 户 

接口 。 

O Hive 客户 端 : 包括 Hive Thrift 客户 端 、JDBC 客户 端 和 ODBC 

客户 端 等 。 

O Web 接口 : 提供 界面 ， 用 户 通过 浏览 器 来 访问 和 操作 Hive JE 
务 端 。 

2. Thrift 服务 器 


Thrift 服务 器 为 Thrift 客户 端 、 JDBC 驱动 应 用 、ODBC 驱动 应 用 提 
供 Thrift 服务 ， 实 现 将 用 其 他 语言 编写 的 程序 转换 为 Java 应 用 程序 的 
功能 ， 因 为 Hadoop 是 用 Java 语言 编写 的 。 

3. 解析 器 

解析 器 包括 解释 器 、 编 译 器 、 优 化 器 和 执行 器 ， 是 将 Hive QL 翻译 
成 MapReduce 和 HDFS 操作 的 核心 部 件 ， 能 够 实现 Hive 服务 操作 到 
MapReduce 分 布 式 应 用 的 任务 转换 。 编 译 器 是 Hive 的 核心 ， 完 成 HQL 
语句 从 词法 分 析 、 语 法 分 析 、 编 译 、 优 化 到 执行 计划 的 生成 的 一 系列 操 
作 ， 优 化 器 是 一 个 演化 组 件 ， 执 行 器 顺序 执行 所 有 的 Job. 

4. MetaStore 元 数据 

MetaStore 元 数据 包括 表 名 、 列 名 、 表 分 区 名 以 及 数据 在 HDFS 上 


的 存储 位 置 等 ， 它 存储 在 关系 数据 库 中 ， 如 MySQL、Derby。Hive 通 
过 元 数据 实现 与 Hadoop 之 间 不 同 数据 格式 的 转换 。 


5. Hadoop 集群 


Hadoop 集群 是 底层 分 布 式 存储 和 计算 引擎 ,能 为 Hive 进行 分 析 操 
作 提 供 数据 分 布 式 存储 支持 。Hive 的 数据 文件 存储 在 HDFS 中 ， 大 多 
数 查询 计算 由 MapReduce 完成 。 


4.1.3 ”数据 模型 





Hive 的 存储 建立 在 Hadoop 文件 系统 之 上 , 本身 并 没有 专门 的 数据 
存储 格式 , 也 不 能 为 数据 建立 索引 , 数据 能 以 任意 形式 存储 在 HDFS E, 
或 者 以 特定 分 类 形式 存储 在 分 布 式 数据 库 HBase 中 。 用 户 可 以 自由 地 
组 织 Hive 中 的 表 , 只 需 在 创建 Hive 表 时 指明 数据 的 列 与 行 分 隔 符 , Hive 
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即 可 解析 数据 。 

Hive 的 数据 由 两 部 分 组 成 : 数据 文件 和 元 数据 。 数 据 文件 存储 在 
Hadoop 文件 系统 中 ， 元 数据 存储 在 关系 数据 库 中 ， 元 数据 包括 表 名 、 
列 名 、 表 分 区 名 以 及 数据 在 HDFS 上 的 存储 位 置 等 。 

Hive 包含 以 下 四 种 数据 模型 : 内 部 表 (Managed Table)、 外 部 表 
(External Table)、 分 区 (Partition) 和 桶 〈Bucket)。 


1. 内 部 表 


Hive 中 的 内 部 表 (Managed Table) 和 关系 数据 库 中 的 表 在 概念 上 
是 类 似 的 , 每 个 表 在 HDFS 中 都 有 对 应 目录 用 来 存储 表 的 数据 ,这 个 目 
录 在 配置 文件 hive-site.xml 中 设置 。 

内 部 表 的 创建 过 程 和 数据 加 载 过 程 可 以 分 别 独立 完成 , 也 可 以 在 同 
一 个 语句 中 完成 。 在 加 载 数据 过 程 中 ,数据 被 移 至 数据 仓库 目录 ,之 后 
对 数据 的 访问 在 数据 仓库 目录 中 直接 完成 。 删除 内 部 表 时 ， 表 中 的 数据 
和 元 数据 会 被 同时 删除 。 

2. 外 部 表 


Hive 中 的 外 部 表 (External Table) 和 内 部 表 在 元 数据 的 组 织 上 是 一 
样 的 , 但 在 实际 数据 存储 上 有 较 大 差异 ,外 部 表 数 据 不 是 存储 在 自己 表 
所 属 的 目录 中 ， 而 是 存储 在 别处 ， 指 向 已 经 在 HDFS 中 存在 的 数据 。 

外 部 表 仅 有 一 个 过 程 , 创建 表 和 数据 加 载 过 程 同 时 进行 和 完成 , 实 
际 数据 存储 在 LOCATION 指定 的 HDFS 路 径 中 ， 并 不 会 移 至 数据 仓库 
目录 中 。 如 果 删 除外 部 表 ， 那 么 被 删除 的 仅仅 是 外 部 表 对 应 的 元 数据 ， 
外 部 表 所 指向 的 数据 是 不 会 被 删除 的 。 

创建 外 部 表 使 用 EXTERNAL 关键 字 ， 告 知 Hive 不 需要 其 管理 外 
部 表 所 操作 的 数据 , 该 操作 不 会 在 数据 仓库 目录 下 自动 创建 以 表 命 名 的 
目录 , 数据 存储 位 置 由 用 户 在 创建 表 时 使 用 LOCATION 关键 字 指 定 ( 该 
操作 甚至 不 会 检查 用 户 指 定 的 外 部 存储 位 置 是 否 存 在 )。 


3. 分 区 


分 区 (Partition) 与 数据 库 中 的 Partition 列 的 密集 索引 相对 应 ， 但 
组 织 方式 有 所 不 同 。 分 区 是 表 的 部 分 列 的 集合 ,可 以 为 频繁 使 用 的 数 
据 建 立 分 区 ， 这 样 查 找 分 区 中 的 数据 时 就 不 需要 扫描 全 表 ， 有 利于 
提高 查找 效率 。 在 Hive 中 ， 每 个 表 有 一 个 相应 的 目录 存储 数据 ， 表 中 
的 每 一 个 分 区 对 应 表 目 录 下 的 一 个 子 目 录 , 每 个 分 区 中 的 数据 则 存储 在 
对 应 子 目 录 下 的 文件 中 。 例 如， 表 member (假定 包含 分 区 字段 gender) 
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在 HDFS 的 路 径 为 /user/hive/warehouse/member， 分 区 gender=F 对 应 的 
HDFS 路 径 为 /user/hive/warehouse/ member/gender=F; 分 区 gender=M 对 
应 的 HDFS 路 径 为 /user/hive/warehouse/member/gender=M。 当 导入 数据 
到 分 区 gender=F 时 , 则 数据 存储 在 /user/hive/warehouse/member/gender= 
F/000000_0 文件 中 ; 当 导 入 数据 到 分 区 gender=M 时 ， 则 数据 存储 在 
/user/hive/warehouse/member/gender=M/000000_0 文件 中 。 


4. 桶 


ü (Bucket) 将 表 的 列 通过 Hash 算法 进一步 分 解 成 不 同 的 文件 存 
储 。 它 对 指定 列 计算 Hash 值 , 根据 Hash 值 切 分 数据 , 目的 是 为 了 并 行 ， 
每 一 个 桶 对 应 一 个 文件 (注意 和 分 区 的 区 别 , 分 区 是 粗 粒度 的 划分 ， 桶 
是 细 粒 度 的 划分 )。 这 样 可 以 让 查询 发 生 在 小 范围 的 数据 上 ， 提 高 查询 
效率 ， 适 合 进行 表 连 接 查询 ， 适 合用 于 采样 分 析 。 比 如 ， 要 将 member 
表 的 id 列 分 散 至 32 个 桶 中 ， 首 先 对 id 列 的 值 进行 Hash 值 计 算 ， 其 中 
对 应 Hash 值 是 0 的 数据 存储 在 /hive/warehouse/member/000000 0 文件 
中 ; 对 应 Hash 值 是 1 的 数据 存储 在 /hive/warehouse/member/000001 0 
文件 中 ， 依 次 类 推 。 

Hive 中 的 数据 存储 如 图 4-4 所 示 。 
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图 4-4 Hive 中 的 数据 存储 


4.2 Hive 部 署 


Hive 将 Metastore 元 数据 存储 在 RDBMS 中 ， 如 MySQL, Derby, 
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按 Metastore 存储 位 置 的 不 同 ， 其 部 署 模式 分 为 内 嵌 模 式 、 本 地 模式 和 
完全 远程 模式 三 种 。 


4.2.1 Hive 部 署 模式 


1. ARERR 


该 模式 是 安装 时 的 默认 部 署 模式 ， 元 数据 信息 被 存储 在 Hive 自 带 
的 数据 库 Derby 中 ,如 图 4-5 所 示 ,， 所 有 组 件 〈 如 数据 库 、 元 数据 服务 ) 
运行 在 同一 个 进程 内 ， 只 人 允许 建立 一 个 连接 ， 意 味 着 同一 时 刻 只 支持 一 
个 用 户 访问 和 操作 Hive。 该 模式 有 很 大 的 局 限 性 ， 一 般 用 于 演示 。 


Hive 服务 进程 


到 一 区 机 一 [可 


4-5 Hive 内 赃 模 式 示例 





2. 本 地 模式 


该 模式 的 元 数据 服务 运行 在 Hive 服务 主 进程 中 ， 当 涉及 元 数据 操 
作 时 , Hive 服务 中 的 元 数据 服务 模块 通过 JDBC 和 存储 于 DB 里 的 元 数 
据 数 据 库 进 行 交互 。 如 图 4-6 所 示 ， 该 模式 下 MySQL 数据 库 与 Hive 
运行 在 同一 台 物 理 机 器 上 ， 可 提供 多 用 户 并 发 访问 Metastore 服务 ， 一 
般 用 于 开发 和 测试 。 





图 4-6 Hive 本 地 模式 示例 


3. 远程 模式 


和 本 地 模式 一 样 ， 远 程 模式 的 元 数据 信息 被 存储 在 独立 数据 库 中 ， 
不 同 之 处 是 元 数据 可 能 存储 在 另 一 台 物 理 机 上 ， 甚 至 另 一 种 操作 系统 
上 。 如 图 4-7 所 示 ， 元 数据 服务 以 独立 进程 运行 ， 允 许 创建 多 个 连接 ， 
提供 多 用 户 同时 访问 并 操作 Hive。HiveServer2 和 Hcatalog 等 进程 使 用 
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Thrift 客户 端 通过 网 络 获取 元 数据 服务 , 而 Metastore Service 通过 JDBC 
和 存储 在 数据 库 里 的 Metastore Database 交互 。 该 模式 提供 各 类 接口 
(BeeLine、CLI 和 Pig)， 其 实 是 典型 的 网 站 架构 模式 。 首 先前 台 页 面 
给 出 查询 语句 ， 然 后 中 间 层 使 用 Thrift 网 络 API 将 查询 传 到 Metastore 
Service， 接 着 Metastore Service 根据 查询 得 出 结果 ， 并 给 出 回应 。 





4-7 Hive 远程 模式 示例 
4.2.2 Hive 内 谋 模 式 部 署 


Hive 是 基于 Hadoop 的 数据 仓库 技术 ， 因 此 部 署 Hive 前 要 预先 部 
署 完成 Hadoop 稳定 版 本 的 集群 环境 (本 教材 采用 Hadoop 2.7.3 版 本 ， 
可 参考 2.2 节 进行 部 署 )。 下 面 介绍 hive-2.1.1 二 进 制 包 的 安装 方法 。 
(1) 下 载 Hive 安装 包 到 /root/tools 目录 。 
打开 浏览 器 ， 在 地 址 栏 直接 输入 http://mirrors.cnnic.cn/apache/hive/ 
hive-2.1.1/ 并 回 车 ， 找 到 Apache 官网 上 的 Hive 安装 包 地 址 ， 如 图 4-8 
所 示 , 下 载 安装 包 apache-hive-2.1.1-bin.tar.gz( 已 经 编译 好 的 二 进 制 包 )， 
并 复制 到 client 机 的 /root/tools 目录 下 。 
/apache/hive/hive-2. 1.1/ 


File Name File Size Date 


apache-hive-2. 1. 1-bin. tar. gz 149756462 08-Dec-2016 13:45 
apache-hive-2. 1. l-src. tar. gz 19466965 08-Dec-2016 13:45 





Æ 4-8 Apache 官网 上 的 Hive 安装 包 


[root@client~]# II /root/tools # 显 示 /root/tools 目录 结构 
[root@client ~]# 11 /root/tools 


total 146248 
—rw-r--r-- 1 root root 149756462 Mar 28 08:54 apache-hive-2.1.1-bin.tar.gz 


(2) 解压 二 进 制 包 到 安装 目录 /usr/cstor， 解 压 后 生成 子 目 录 





apache-hive-2.1.1-bin， 下 面 命 令 完成 以 root 身份 ， 在 client 上 将 /root/ 
tools 目录 下 的 apache-hive-1.2.1-bin .targz 解压 到 /usr/cstor 目录 下 。Hive 
的 版 本 为 2.1.1。 


[root@client~]# cd /usr/cstor/ 

[root@client cstor]# tar -zxvf /root/tools/apache-hive-2.1.1-bin.tar.gz 
# 解 压 安装 包 

[root@client cstor]# II 


[root@client cstor]# 11 

total 8 

drwxr-xr-x 9 root root 171 Aug 10 19:55 apache-hive-2.1.1-bin 
drwxr-xr-x 10 root root 163 Aug 10 13:48 hadoop 


(3) 将 目录 apache-hive-2.1.1-bin 重 命名 为 hive， 方 便 后 续 操作 。 


[root@client cstor]# mv apache-hive-2.1.1-bin hive # 更 改 目 录 名 
[root@client cstor]# II 


[root@client cstor]# mv apache-hive-2.1.1-bin hive 
[root@client cstor]# 11 

total 8 

drwxr-xr-x 10 root root 163 Aug 10 13:48 hadoop 
drwxr-xr-x 9 root root 171 Aug 10 19:55 hive 


[root@client cstor]# cd hive 
[root@client hive]# II 


[root@client cstor]# cd hive 
[root@client hive]# 11 


total 80 

—rw-r--r-- 1 root root 29003 Nov 29 2016 LICENSE 
=EW-r--r—— 1 root root 578 Nov 29 2016 NOTICE 
—rw-r--r-- 1 root root 4122 Nov 29 2016 README.txt 
-rw-r--r-- 1 root root 18501 Nov 30 2016 RELEASE NOTES.txt 
drwxr-xr-x 3 root root 209 Aug 10 19:55 bin 
drwxr-xr-x 2 root root 4096 Aug 10 19:55 conf 
drwxr-xr-x 4 root root 34 Aug 10 19:55 examples 
drwxr-xr-x 7 root root 68 Aug 10 19:55 hcatalog 
drwxr-xr-x 2 root root 44 Aug 10 19:55 jdbc 
drwxr-xr-x 4 root root 8192 Aug 10 19:55 lib 
drwxr-xr-x 4 root root 35 Aug 10 19:55 scripts 


以 上 为 Hive 目录 列表 ， 其 中 bin 目录 存放 启动 脚本 ，conf 目录 存 
放 配 置 文件 ，lib 目录 存放 Hive 运行 所 依赖 的 Java 包 。 
(4) 为 Hive 配置 Hadoop 安装 路 径 。 进 入 Hive 配置 文件 夹 cont, 
将 Hive 的 环境 变量 模板 文件 复制 成 环境 变量 文件 。 编辑 Hive 默认 环境 
变量 文件 hive-env.sh， 实 现 将 Hadoop 环境 变量 写 入 hive-env.sh 文件 。 


[root@client hive]# cd conf 。 ## 进 入 Hive 配置 目录 conf 

[root@client conf]# II 

[root@client conf]# cp hive-env.sh.template hive-env.sh 

# 复 制 环境 变量 模板 文件 hive-env.sh.template 成 环境 变量 文件 hive-env.sh 
[root@client conf]# vim hive-env.sh # 编 辑 文件 hive-env.sh 


[root@client conf]# cp hive-env.sh.template hive-env.sh 
[root@client conf]# 11 

total 264 
-rw-r--r-- 1 root root 1596 Nov 29 2016 beeline-log4j2.properties.template 
root root 229198 Nov 30 2016 hive-default.xml.template 

root root 2378 Aug 10 20:02 hive-env.sh 


1 

-rw-r--r-- 1 

1 
—rw-r--r-- 1 root root 2378 Nov 29 2016 hive-env.sh.template 

1 

1 

1 

1 


-rw-r--r-- 


-rw-r--r-- 1 root root 2274 Nov 29 2016 hive-exec-log4j2.properties.template 
root root 2925 Nov 29 2016 hive-log432.properties.template 

root root 2060 Nov 29 2016 ivysettings.xml 

root root 2719 Nov 29 2016 llap-cli-log4j2.properties.template 
-rw-r--r-- 1 root root 4353 Nov 29 2016 llap-daemon-log4j2.properties.template 


-rw-r--r-- 
-rw-r--r-- 
-rw-r--r-- 


-rw-r--r-- 1 root root 2662 Nov 29 2016 parquet-logging.properties 
[root@client conf]# vim hive-env.sh 


# Licensed to the Apache Software Foundation (ASF) under one 
# or more contributor license agreements. See the NOTICE file 


在 键盘 按 【i】 键 开始 编辑 配置 文件 hive-env.sh， 加 入 以 下 语句 : 
HADOOP HOME=/usr/cstor/hadoop 
说 明 : 编者 的 Hadoop 部 署 位 置 为 /usr/cstor/hadoop/， 实际 操作 中 要 
根据 自己 的 Hadoop 部 署 位 置 进 行 调整 。 
(S) 在 HDFS 里 新 建 Hive 存储 目录 。 
Hive 运行 过 程 中 指定 在 /user/hive/warehouse 存储 metadata 〈 元 数 
据 )， 故 要 在 HDFS 中 建立 该 目录 并 为 其 分 配 权限 。 


[root@client conf]# cd /usr/cstor/hadoop 

[root@client hadoop]# bin/hadoop fs -mkdir /tmp ”# 建 立 目 录 tmp 
[root@client hadoop]# bin/hadoop fs -mkdir -p /user/hive/warehouse 

# 建 立 目录 /user/hive/warehouse 

[root@client hadoop]# bin/hadoop fs -chmod g+w /tmp 

# 使 tmp 对 同 组 用 户 增加 写 权限 

[root@client hadoop]# bin/hadoop fs -chmod g+w /user/hive/warehouse 
# 使 /user/hive/warehouse 对 同 组 用 户 增加 写 权 限 


(6) 初始 化 元 数据 库 ， 启 动 Hive， 进 入 Hive 运行 时 环境 。 


[root@client hadoop]# cd /usr/cstor/hive/ # 进 入 Hive 安装 目录 
[root@client hive ]# bin/schematool -dbType derby -initSchema 

# 初 始 化 元 数据 库 

[root@client hive ]# bin/hive # 启 动 Hive 进入 Hive 运行 时 环境 
hive> 


EAREN TF, H3 Hive 指 的 是 启动 Hive 运行 时 环境 。 出 现 


“hive> ”提示 表示 Hive 正常 启动 ， 否 则 部 署 失败 。 若 部 署 成 功 可 以 用 
下 面 的 命令 显示 Hive 表 和 函数 。 


x 


hive> show tables; # 显 示 Hive 的 表 
hive> show functions; # 显 示 Hive 的 函数 


4.2.3 Hive 本 地 和 远程 模式 部 署 


Hive 本 地 模式 下 元 数据 存储 在 MySQL 数据 库 中 ， 且 MySQL 数据 
库 与 Hive 运行 在 同一 台 物 理 机 器 上 。 下 面 介绍 本 地 模式 的 安装 过 程 。 
(1) 按 4.2.2 节操 作 完成 Hive 的 基本 安装 。 
(2) 安装 MySQL 程序 。MySQL 程序 的 安装 在 此 不 做 介绍 ， 读 者 
基于 自己 的 系统 参考 有 关 资 料 自行 安装 。 假 定 在 安装 过 程 中 为 root 用 户 
设置 MySQL 登录 密码 为 123456。 
(3) 启动 MySQL， 使 用 root 用 户 登 录 MySQL 数据 库 ， 在 提示 输 
入 密码 时 输入 前 面 设 置 的 密码 123456. 
[root@client ~]# cd /etc/init.d 
[root@client init.d~]# ./mysqld start # 启 动 MySQL 
[root@client init.d~]# mysql -uroot -p # 登 录 MySQL 


[root@client ~]# cd /etc/init.d 

[root@client init.dJ# ./mysqld start 

Starting MySQL SUCCESS! 

[root@client init.d]# mysql -uroot -p 

Enter password: 

Welcome to the MySQL monitor. Commands end with ; or \g. 
Your MySQL connection id is 4 

Server version: 5.6.30 MySQL Community Server (GPL) 


Copyright (c) 2000, 2016, Oracle and/or its affiliates. All rights reserved. 
Oracle is a registered trademark of Oracle Corporation and/or its 
affiliates. Other names may be trademarks of their respective 

owners. 


Type 'help;' or '\h' for help. Type '\c' to clear the current input statement. 


mysql> 


(4) 创建 存储 Hive 元 数据 的 数据 库 HiveDB， 并 通过 显示 数据 库 
语句 验证 创建 成 功 。 
mysql>create database HiveDB; # 创 建 数据 库 HiveDB 
[mysql>show databases; # 显 示 MySQL 数据 库 


mysql> show databases; 


1 information_schema | 
| HiveDB 1 
1 mysql 1 
I performance schema | 
1 test 1 


5 rows in set (0.00 sec) 
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(5) 退出 MySQL， 切 换 到 hive 的 bin 目录 编辑 hive-config.sh 文件 。 


mysql>exit; # 退 出 MySQL 
[root@client ~]# cd /usr/cstor/hive/bin/ # 切 换 到 hive 的 bin 目录 
[root@client bin]# vim hive-config.sh # 编 辑 hive-config.sh 


加 下 列 Hadoop 和 Hive 的 安装 目录 后 保存 退出 。 


export HADOOP_HOME=/usr/cstor/hadoop 
export HIVE_HOME=/usr/cstor/hive 


(6) 切换 到 hive 的 conf 目录 创建 和 编辑 hive-site.xml 文件 。 


[root@client bin]# cd /usr/cstor/hive/conf/ #JE&#J hive 的 conf 目录 
[root@client conf]# touch hive-site.xml # 创 建 hive-site.xml 文件 
[root@client conf]# vim hive-site.xml # 编 辑 hive-site.xml 文件 


加 下 列 内 容 后 保存 退出 : 


<configuration> 

<property> 
<name>javax.jdo.option.ConnectionURL</name> 
<value>jdbc:mysql://localhost:3306/HiveDB?createDatabaseIfNotExist=true</value> 
</property> 

<property> 
<name>javax.jdo.option.ConnectionDriverName</name> 
<value>com.mysql.jdbc.Driver</value> 

</property> 

<property> 
<name>javax.jdo.option.ConnectionUserName</name> 
<value>root</value> 

</property> 

<property> 
<name>javax.jdo.option.ConnectionPassword</name> 
<value>123456</value> 

</property> 

<property> 
<name>hive.metastore.warehouse.dir</name> 
<value>/user/hive/warehouse</value> 

</property> 

<property> 
<name> hive.hwi.listen.host </name> 
<value>0.0.0.0</value> 

</property> 

<property> 
<name> hive.hwi.listen.port </name> 
<value>9999</value> 

</property> 

<property> 
<name> hive.hwi.war.file </name> 
<value>lib/hive-hwi-2.1.1.war</value> 
</property> 

</configuration> 


(7) 把 Java 连接 MySQL 的 驱动 程序 文件 mysql-connector-java- 


x.Y.Zz-bin.jar〈 该 文件 可 在 安装 MySQL 的 lib 目录 下 找到 ，x.y.z 为 版 本 
号 ) 复制 到 hive 的 lib 目录 。 


[root@client ~]# cp /usr/local/mysql/lib/mysql-connector-java-5.1.42-bin.jar 
lusr/icstor/hive/lib/ # 复 制 文件 


(8) 初始 化 元 数据 库 ， 启 动 Hive， 进 入 Hive 运行 时 环境 。 


[root@client ~]# cd /usr/cstor/hive/ #BÀ Hive 安装 目录 
[root@client hive ]# bin/schematool -dbType mysql -initSchema 
# 初 始 化 元 数据 库 


[root@client hive ]# bin/hive # 启 动 Hive 进入 Hive 运行 时 环境 
hive> show tables; # 显 示 表 
hive> show functions ; # 显 示 所 有 函数 


要 确保 Hadoop 集群 已 经 启动 和 MySQL 服务 运行 正常 才 可 以 启动 
Hive。 

至 此 Hive 的 本 地 模式 部 署 完成 ， 远 程 模式 的 安装 与 本 地 模式 类 似 ， 
最 主要 的 区 别 是 在 hive-site.xml 配置 文件 中 修改 localhost 为 远程 MySQL 
数据 库 的 IP 地 址 〈 远 程 模式 下 MySQL 数据 库 和 Hive 运行 在 不 同 物理 
机 器 上 )。 将 上 面 的 本 地 模式 安装 做 如 下 修改 即 可 实现 远程 模式 安装 。 

切换 到 Hive 的 conf 目录 ， 编 辑 hive-site.xml 文件 。 


[root@client ~]# cd /usr/cstor/hive/conf/ 。 # 切 换 到 Hive 的 conf 目录 
[root@client conf]# vim hive-site.xml # 编 辑 hive-site.xml 文件 


修改 javax.jdo.option.ConnectionURL 的 属性 值 , 修改 后 的 属性 值 如 
F (host 为 远程 安装 MySQL 数据 库 机 器 的 IP 地 址 )。 
<value>Jdbc:mysql://host:3306/HiveDB?createDatabaseIfNotExist=true 


</value> 


4.3 Hive 配置 


完成 Hive 基本 安装 后 ， 还 需要 做 设 定 Hive 参数 等 配置 工作 ,配置 
可 以 调 优 HQL 代码 执行 效率 。Hive 启动 时 会 读 取 相 关 配 置信 息 ，Hive 
的 配置 文件 放 在 cof 子 目 录 下 ， 经 常 需 要 根据 特定 需求 进行 修改 。 涉 
及 Hive 的 配置 文件 主要 有 两 个 ,分 别 是 文件 hive-env.sh 和 hive-site.xml。 
1. 文件 hive-env.sh 


在 文件 hive-env.sh 中 指定 Hadoop 安装 路 径 ， 编 辑 文件 hive-env.sh 
的 方法 参考 4.2.2 的 第 4 步 。 

2. 文件 hive-site.xml 

文件 hive-site.xml 保存 Hive 运行 时 所 需要 的 相关 配置 参数 。 
HIVE_HOME/conf 目录 中 的 文件 hive-default.xml.template 保存 着 各 个 
配置 参数 的 默认 值 ,用 户 可 以 通过 在 conf 目录 中 创建 hive-site xml 并 新 


增 特 定 参数 的 值 来 覆盖 默认 值 。 每 次 启动 Hive 时 其 参数 值 都 是 不 变 的 。 
hive-site.xml 文件 中 包括 以 下 主要 配置 项 。 


口 


口 





口 


属性 hive.exec.scratchdir: Hive 操作 访问 HDFS 时 存储 临时 数 
据 的 目录 ， 默 认为 /tmp/ 目 录 ， 目 录 权 限 设置 为 733 。 

属性 hive.metastore.warehouse.dir: 执行 Hive 操作 的 数据 存储 
目录 , 设置 为 HDFS 存储 路 径 hdfs://master_hostname:port/hive/ 
warehouse, 

属性 javax.jdo.option.ConnectionURL: 设置 Hive 通过 JDBC 模 
式 连 接 MySQL 数据 库存 储 metastore 元 数据 内 容 ， 属 性 值 为 

jdbc:mysql://host/database_name?createDatabaseIfNotExist=true o 
属性 javax.jdo.option.ConnectionDriverName: 设置 Hive 连接 
MySQL 数据 库 的 驱动 名 称 ， 属 性 值 为 com.mysql.jdbc.Driver。 
属性 javax.jdo.option.ConnectionUserName: 设置 Hive 连接 存 
储 metastore 内 容 的 数据 库 的 用 户 名 。 

属性 javax.jdo.option.ConnectionPassword: 设置 Hive 连接 存储 
metastore 元 数据 内 容 的 数据 库 的 密码 。 

属性 javax.jdo.option.Multithreaded: 是 否 允 许 Hive 与 MySQL 
之 间 存 在 多 条 连接 ， 设 置 为 tue， 表 示人 允许 。 


有 时 需要 更 改 hive-site.xml 文件 中 的 配置 属性 , 更 改 方法 有 以 下 几 种 : 
(1) 直接 用 命令 vim hive-site.xml 编辑 hive-site.xml 文件 。 
(2) 使 用 带 -hiveconf 选项 的 Hive 命令 。 
该 方法 在 进入 Hive 会 话 之 前 进行 。 如 在 进入 Hive 会 话 之 前 要 显示 
Hive 表 ， 命令 如 下 : 


[root@client hive]# bin/hive -e ‘show tables;" 


[root@client hive]# bin/hive -e 'show tables;' 

which: no hbase in (/usr/local/sbin:/usr/local/bin:/us 
79//3re/bin:/usr/cstor/hadoop/bin:/root/bin) 

SLF4J: Class path contains multiple SLF4J bindings. 
SLF4J: Found binding in [jar:file:/usr/cstor/hive/lib/ 
ass] 

SLF4J: Found binding in [jar:file:/usr/cstor/hadoop/sł 
taticLoggerBinder.class] 

SLF4J: See http://www.slf4j.org/codes.html#multiple bji 
SLF4J: Actual binding is of type [org.apache.logging.: 


Logging initialized using configuration in jar:file:/t 
Async: true 

OK 

department 

employee 

invites 

mytable 

pokes 

stu_tb3 





(3) 使 用 set 命令 。 

该 方法 称 为 运行 时 配置 (Runtime Configuration), Æ% Hive 特定 
会 话 中 修改 相关 配置 信息 。 如 建立 桶 表 之 前 要 设 定 Hive 能 够 识别 桶 ， 
命令 如 下 : 


hive>set hive.enforce.bucking=true; 


若 要 在 当前 Hive 会 话 中 查看 任何 属性 的 值 , 则 只 在 set 命令 后 指定 
属性 名 ， 如 要 输出 hive.enforce.bucking 的 属性 值 则 用 如 下 命令 : 


hive>set hive.enforce.bucking; 
hive.enforce.bucking=true 


# set 命令 后 不 带 任何 参数 , 则 会 输出 所 有 与 Hive 相关 的 属性 名 及 
其 对 应 属性 值 ， 以 及 Hadoop 中 被 Hive 修改 的 相关 默认 属性 及 属性 值 。 
下 面 列举 Hive 属性 设置 方法 ， 优 先 级 由 高 到 低 ， 即 前 面 的 属性 值 
修改 操作 会 覆盖 后 面 的 属性 值 。 
(1) Hive SET 命令 。 
(2) 使 用 --hiveconf 选项 为 整个 会 话 设置 参数 。 
(3) 编辑 hive-site.xml 文件 。 
(4) 编辑 hive-default.xml 文件 。 
(5) 编辑 hadoop-site.xml 文件 及 其 相关 文件 (如 core-site.xml、 
hdfs-site.xml、 mapred-site.xml ) 。 
(6) 编辑 hadoop-default.xml 文件 及 其 相关 文件 (如 core-default.xml、 
hdfs-default.xml, mapred-default.xml). 


4.4 ”Hive 接口 


针对 不 同 的 上 层 应 用 ，Hive 主要 提供 Hive Shell 接口 、Hive Web 
接口 、Hive API 接口 、Hcatalog 接口 、Pig 接口 和 Beeline 接口 等 。 关 于 
Hcatalog 接口 、Pig 接口 和 Beeline 接口 限于 篇 幅 不 再 讲解 ，Hive API 
面向 使 用 Java 或 Python 编程 的 数据 分 析 师 ， 通 过 该 接口 ， 编 程 人 员 可 
编写 函数 库 中 没有 的 复杂 查询 语句 ， 但 编 好 的 用 户 自 定义 函数 执行 时 ， 
一 般 依 旧 是 在 Hive Shell 接 口 执行 .下 面 主要 介绍 Hive Shell 接口 和 Hive 
Web 接口 。 


4.4.1 Hive Shell 接口 


Hive Shell 接口 运行 在 Hadoop 集群 环境 上 , 提供 在 Hive Shell 下 执 
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行 类 SQL 命令 的 相关 HiveQL 操作 环境 ， 是 Hive 提供 的 标准 接口 ， 也 
是 开发 者 最 常用 的 命令 行 接口 。 

在 Hive 提示 符 后 输入 HiveQL 命令 ，Hive Shell 把 HiveQL 查询 转 
换 为 一 系列 MapReduce 作业 对 任务 进行 并 行 处 理 , 然后 返回 处 理 结果 。 
通过 Shell 接口 ， 程 序 员 和 分 析 师 很 容易 编写 HiveQL 来 实现 新 建 表 和 


查询 表 操 作 。 


安装 完 Hive 后 ,输入 “<HIVE_HOME>/bin/hive ”或 者 “hive --service 
cli” 并 回 车 即 可 启动 Hive Shell。 初 次 在 Hive Shell 下 执行 命令 ， 会 在 
执行 命令 操作 的 机 器 上 创建 metastore 数据 库 ( 数 据 库 在 运行 hive 命令 的 
相应 路 径 下 创建 一 个 名 为 metastore_db 的 目录 用 于 存储 数据 描述 文件 )。 


[root@client hive]# 11 

total 84 

—rw-r--r-- 1 root root 29003 Nov 
—rw-r--r-- 1 root root 578 Nov 
—rw-r--r-- 1 root root 4122 Nov 
—rw-r--r-- 1 root root 18501 Nov 
drwxr-xr-x 9 root root 171 Aug 
drwxr-xr-x 3 root root 209 Aug 
drwxr-xr-x 2 root root 4096 Aug 
-rw-r--r-- 1 root root 642 Aug 
drwxr-xr-x 4 root root 34 Aug 
drwxr-xr-x 7 root root 68 Aug 
drwxr-xr-x 2 root root 44 Aug 
drwxr-xr-x 4 root root 8192 Aug 
drwxr-xr-x 5 root root 133 Aug 
drwxr-xr-x 4 root root 35 Aug 

Hive Shell 操作 有 如 下 特点 : 


29 
29 
29 
30 
11 
11 
11 
11 
10 
10 
10 
11 
11 
10 


2016 
2016 


10:49 
11:03 
11:06 
10:59 
17:51 
17:51 
17:51 
11:42 
10:59 
17:51 


LICENSE 

NOTICE 

README.txt 
RELEASE_NOTES.txt 
apache-hive-2.1.1-bin 
bin 

conf 

derby.log 
examples 

hcatalog 

jdbc 

lib 

metastore db 
scripts 


(1) 命令 必须 以 分 号 “;” 结 束 ， 通 知 Hive 开始 执行 相应 的 操作 。 
(2) 命令 不 要 求 大 小 写 敏感 〈 除 了 进行 字符 串 比 较 相 关 操 作 )， 因 
此 ， 命 令 “show table;” 将 会 产生 与 “SHOW TABLE;” 相 同 的 输出 结果 。 
(3) 支持 Tab 键 命 令 自动 补 全 功能 ， 如 在 hive> 提 示 符 后 输入 SH 
或 SHO 按 下 Tab 键 会 自动 补 齐 为 show， 如 图 所 示 ， 输 入 show ta 按 下 
Tab 键 会 显示 所 有 可 能 的 命令 。 


hive> show ta 


table 


tables 


tablesample tan( 


(4) 默认 会 输出 执行 过 程 信 息 ， 如 执行 查询 操作 所 用 时 间 ， 通 过 
指定 -S 选项 可 以 禁止 输出 此 类 信息 ， 只 输出 HiveQL 执行 结果 。 

Hive Shell 的 常用 命令 如 下 : 

(1) 清 屏 。 

按 组 合 键 【Ctrl+L】 或 clear, 


(2) 查看 数据 库 中 的 表 。 


hive> show tables; 


(3) 查看 数据 库 中 的 内 置 函数 。 


hive> show functions; 


(4) 查看 表 结 构 。 
输入 desc < 表 名 >， 比 如 查看 mytable 表 的 结构 。 


hive> desc mytable; 


(5) 查看 HDFS 上 的 文件 。 
比如 查看 默认 存储 路 径 下 的 内 容 。 


hive> dfs -Is /user/hive/warehouse; 


(6) 执行 操作 系统 的 命令 ， 比 如 查看 当前 目录 。 


hive> !pwd; 


4.4.2 Hive Web 接口 


Hive Web 接口 简称 HWI (Hive Web Interface)， 是 Hive Shell 接口 
的 一 个 蔡 代 方案 (图 形 化 实现 )， 提 供 了 更 直观 的 Web 界面 ， 适 合 数据 
分 析 或 数据 运营 人 员 做 即席 查询 。 用 户 通过 浏览 器 来 访问 和 操作 Hive 
服务 端 ， 可 以 查看 Hive 数据 库 模式 ， 执 行 HiveQL 相关 操作 命令 。 在 
浏览 器 的 地 址 栏 输入 http://<IP 地 址 >:9999/hwi/ 并 按 Enter 键 访 问 Hive 
Web 管理 接口 。 


1. 配置 HWI 


(1) 打包 war 文 件 。HWI 的 运行 需要 依赖 SHIVE_HOME/lib 目录 
下 的 hive-hwi-2.1.1.jar 和 hive-hwi-2.1.1.war 包 。 采用 4.2.3Hive 部 署 后 ， 
$HIVE_ HOME/lib 目录 下 已 经 存在 hive-hwi-2.1.1.jar 包 ， 但 没有 hive- 
hwi-2.1.1.war 包 ， 需 要 下 载 Hive 的 源码 包 并 解压 ， 然 后 进入 解压 后 生 
成 的 目录 下 的 hwi/web 目录 ,将 该 目录 下 的 文件 夹 和 文件 压缩 成 zip 包 ， 
再 重 命名 为 hive-hwi-2.1.1.war， 放 到 $HIVE_HOME/lib 目录 中 。 
[root@client ~]# cd /root/tools/ 


[root@client tools]# II 
[root@client tools]# tar -zxvf apache-hive-2.1.1-src.tar.gz 





[root@client ~]# cd /root/tools/ 


[root@client tools]# 11 


total 165264 


—rw-r--r-- 1 root root 149756462 Mar 28 08:54 apache-hive-2.1.1-bin.tar.gz 


drwxr-xr-x 38 root root 
-rw-r--r-- 1 root root 


19466965 Apr 


4096 Aug 10 20:15 apache-hive-2.1.1-src 
9 19:52 apache-hive-2.1.1-src.tar.gz 


[root@client tools]# tar -zxvf apache-hive-2.1.1-src.tar.gz 


[root@client tools]# cd apache-hive-2.1.1-src 

[root@client apache-hive-2.1.1-src]# cd hwi/web 
[root@client web]# II 
[root@client web]# yum -y install zip 
[root@client web]# zip -rq hive-hwi-2.1.1.war * 


[root@client web] zip -rq hive-hwi-2.1.1. 


[root@client web]# 11 


total 128 

drwxr-xr-x 
过 所 本 
drwxr-xr-x 
=EN- pps 
-rw-r--r-- 
=E- rp 


drwxr-xr-x 


DpppNPN 


root 
root 
root 
root 
root 
root 
root 


root 
root 
root 
root 
root 
root 
root 


21 
2729 
31 
2365 
1867 
48906 
76 


Aug 
Nov 
Aug 
Nov 
Nov 
Aug 
Aug 


10 
29 
10 
29 
29 
10 


10 20 


20:15 
2016 
20:15 
2016 
2016 
20:22 
:15 


War * 


WEB-INF 
authorize.jsp 

css 
diagnostics.jsp 
error page.jsp 
hive-hwi-2.1.1.war 
img 


[root@client web]# cp hive-hwi-2.1.1.war /usr/cstor/hivel/lib 


[root@client web]# cd /usr/cstor/hive/lib 


[root@client lib]# II 


(2) copy 相关 jar 文件 到 SHIVE_HOME/lib 目录 下 ， 主 要 包括 
tools.jar, jasper-compiler-5.5.23.jar, jasper-runtime-5.5.23.jar 和 commons- 
el-1.0.jar。tools.jar Æ JDK 安装 目录 的 lib 目录 下 ， 用 如 下 命令 复制 到 
S$SHIVE_HOME/lib 目录 下 。 


[root@client tools]# cd /usr/cstor/hive/lib 
[root@client lib]# cp /usr/local/jdk1.7.0_79/lib/tools.jar /usr/cstor/hive/lib/ 


其 他 jar 文件 有 时 会 默认 已 经 存在 ， 如 果 没 有 要 自己 下 载 并 复制 到 
SHIVE_HOME/lib 目录 下 ， 在 此 不 再 详细 介绍 。 
(3) 修改 hive-site .xml 配置 文件 。 


[root@client ~]# cd /usr/cstor/hive/conf 
[root@client conf]# vim hive-site.xml 


在 配置 文件 hive-site.xml 中 添加 下 列 属性 设置 。 


<property> 


<name> hive.hwi.listen.host </name> 
<value>0.0.0.0</value> 
<description>HWI 服务 运行 的 主机 </description> 


</property> 
<property> 
<name> hive.hwi.listen.port </name> 
<value>9999</value> 
<description>HWI 服务 运行 的 端口 </description> 
</property> 
<property> 
<name> hive.hwi.war.file </name> 
<value>lib/hive-hwi-2.1.1.war</value> 
<description>HWI 服务 运行 的 WAR 包 路 径 </description> 
</property> 


2. 启动 HWI 服务 


在 命令 行 下 输入 “hive --service hwi” 启 动 Hive Web 管理 方式 ， 当 
出 现 如 图 4-9 所 示 的 运行 结果 说 明 hwi 服务 正常 启动 (10.30.190.19 为 
Hive 所 在 主机 的 IP 地 址 )， 在 浏览 器 的 地 址 栏 输入 http://10.30.190.19: 
9999/hwi/ 并 按 Enter 键 访问 Hive Web 管理 接口 (9999 为 Hive 服务 使 用 
的 端口 )，Hive Web 界面 如 图 4-10 所 示 。 在 启动 之 前 要 确保 Hadoop 集 
群 能 正常 使 用 ，MySQL 服务 器 能 正常 访问 及 Hive 能 正常 使 用 。 


[root@client ~]# cd /usr/cstor/hive 
[root@client hive]# bin/hive --service hwi 
[root@client hive]# bin/hive --service hwi 
17/08/14 10:56:19 INFO hwi.HWIServer: HWI is starting up 
17/08/14 10:56:20 INFO mortbay.log: Logging to org.slf4j.impl.Log4jLoggerAdapter (org.r 
17/08/14 10:56:20 INFO mortbay.log: jetty-6.1.26 
17/08/14 10:56:20 INFO mortbay.log: Extract /usr/cstor/hive/lib/hive-hwi-1.2.1.war to 
/webapp 
17/08/14 10:56:20 INFO mortbay.log: Started SocketConnector@10.30.190.19:9999 


图 4-9 正常 启动 HWI 
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启动 Hive Web 界面 后 首先 要 完成 用 户 信息 认证 ， 然 后 就 可 以 创建 
Hive 会 话 执行 查询 或 浏览 数据 库 等 操作 。 


4.5 Hive SOL 


Hive 定义 了 简单 的 类 SQL 查询 语句 , 称 HiveQL, 与 大 部 分 的 SQL 
语法 兼容 ,方便 熟悉 SQL 的 开发 者 使 用 Hive 进行 开发 和 处 理 复杂 的 分 
析 工 作 ， 还 可 以 利用 HQL 进行 用 户 查询 。 不过， 由 于 Hive 本 质 上 相当 
于 MapReduce 和 HDFS 的 翻译 终端 ， 必 然 有 其 独特 之 处 ， 比 如 HiveQL 
不 支持 更 新 操作 ， 所 有 数据 都 是 在 加 载 的 时 候 确定 的 ， 再 比如 HiveQL 
中 有 MAP 和 REDUCE 子 句 等 。 


4.5.1 数据 类 型 


Hive 实际 上 是 一 个 数据 仓库 ， 而 数据 仓库 的 本 质 是 数据 库 ， 所 以 
可 以 在 Hive 里 创建 表 ， 用 表 保 存 数据 。 既 然 可 以 创建 表 ， 那 么 表 中 就 
有 相应 的 列 ， 就 要 定义 列 的 数据 类 型 。 

Hive 支持 基本 类 型 和 复杂 类 型 ， 基 本 类 型 包括 如 下 几 种 。 

(1) 整数 类 型 :tinyint/smallint/int/bigint。 

(2) 浮 点 数 类 型 : float/double/dicemal。 

(3) 布尔 类 型 : boolean。 

(4) 字符 串 类 型 : string/varchar/char。 

复杂 类 型 包括 如 下 几 种 。 

(1) Array: 数组 类 型 ， 由 一 系列 相同 数据 类 型 的 元 素 组 成 。 

(2) Map: 集合 类 型 ， 包 括 Key-Value 键 值 对 ， 可 以 通过 Key 来 
访问 元 素 。 

(3) Struct: 结构 类 型 ， 可 以 包含 不 同 数据 类 型 的 元 素 ， 这 些 元 素 
可 以 通过 “点 语法 ”的 方式 来 得 到 所 需要 的 元 素 。 


4.5.2 DDL 语句 


常见 的 DDL 操作 (Data Definition Language， 数 据 定义 语言 ) 包括 
create/drop/alter 数据 库 create/drop/truncate 表 、alter 表 / 分 区 / 列 、 
create/drop/alter 视图 、create/drop 函数 等 内 容 。 下 面 介绍 常用 的 DDL 
语句 。 
注意 本 节 不 特别 说 明 时 ， 都 使 用 默认 存储 路 径 “user/hive/warehouse” 
( 表 数 据 存储 路 径 可 以 通过 修改 配置 文件 hive-site xml 中 的 ${hive.metastore. 


warehouse.dir} 参 数 改变 )。 
1. create/drop/alter 数据 库 


Hive 数据 库 本 质 上 是 一 个 目录 或 命名 空间 ， 用 于 解决 表 命 名 冲突 ， 
Hive 支持 创建 多 个 不 同 的 命名 空间 ， 使 不 同 用 户 或 应 用 程序 可 以 分 别 
位 于 不 同 的 命名 空间 或 模式 中 执行 各 自 的 操作 而 互 不 影响 。 

Hive 数据 库 类 似 传 统 数据 库 DataBase， 在 元 数据 库 里 实际 是 一 张 
表 ， 对 应 于 HDFS 上 的 数据 仓库 目录 下 是 一 个 文件 夹 。Hive 默认 的 数 
据 库 是 default。 

(1) 创建 数据 库 

任务 : 创建 名 为 mydb 和 dbl 的 两 个 数据 库 ， 并 验证 在 默认 存储 路 
径 “/user/hive/warehouse ”下 有 无 对 应 目录 (通过 在 命令 行 直 接 执行 
HDFS 命令 “dfs -ls 路 径 ” 查 看 Hadoop 上 的 文件 来 验证 )。 


关键 操作 步骤 及 命令 结果 : 

hive> create database mydb; # 创 建 数据 库 mydb 

hive> create database db1; # 创 建 数据 库 db1 

hive> dfs -Is /user/hive/warehouse:; # 查 看 HDFS 下 对 应 目录 

hive> dfs -ls /user/hive/warehouse; 

Found 2 items 

drwxrwxr-x - root supergroup 0 2017-08-11 11:51 /user/hive/warehouse/db1.db 
drwxrwxr-x - root supergroup 0 2017-08-11 11:50 /user/hive/warehouse/mydb.db 


如 果 不 希望 将 数据 库存 储 在 默认 路 径 下 ， 可 以 在 创建 数据 库 时 用 
location 关键 字 指定 存储 路 径 。 

任务 : 创建 名 为 db2 的 数据 库 ， 存 储 在 HDFS 的 /user/hive F + 

关键 操作 步骤 及 命令 结果 : 

hive> create database db2 location /user/hive'; 


# 在 指定 路 径 /user/hive 创建 数据 库 db2 
hive> describe database db2; # 查 看 数据 库 信息 


hive> describe database db2; 
OK 


db2 hdfs://master:8020/user/hive root USER 
Time taken: 0.209 seconds, Fetched: 1 row(s) 


(2) 查看 数据 库 信息 
用 describe database 后 跟 数 据 库 名 查看 数据 库 信息 。 
任务 : 查看 dbl 数据 库 信 息 。 
关键 操作 步骤 及 命令 结果 : 


hive> describe database db1; 
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hive> describe database db1; 

s hdfs://master:8020/user/hive/warehouse/db1.db root USER 
G) 打开 数据 库 

任务 : 切换 到 数据 库 db1， 然 后 再 切换 到 默认 数据 库 default, 

关键 操作 步骤 及 命令 结果 : 


hive>use db1; # 切 换 到 db1 数据 库 
hive>use default; # 切 换 到 default 数据 库 


use 命令 设 定 当前 工作 数据 库 , 类 似 于 操作 系统 中 切换 当前 工作 目录 。 
default 是 Hive 默认 的 数据 库 ， 在 不 使 用 hive>use < 数据 库 名 > 设 定 
数据 库 的 情况 下 默认 在 数据 库 default 中 操作 。 


(4) 删除 数据 库 
任务 : 删除 数据 库 dbl 并 验证 。 
关键 操作 步骤 及 命令 结果 : 
hive>drop database if exists db1; # 删 除 db1 数据 库 
hive> dfs -Is /user/hive/warehouse; # 哈 证 删除 操作 


hive> dfs -ls /user/hive/warehouse; 
Found 1 items 
drwxrwxr-x - root supergroup 0 2017-08-11 11:50 /user/hive/warehouse/mydb.db 


删除 dbl 数据 库 的 实质 是 删除 其 位 于 HDFS 上 的 dbl.db 目录 。 
通常 使 用 创建 命令 时 ， 加 if not exists 可 选项 实现 目标 对 象 不 存在 
才 执 行 创建 操作 ， 否 则 抛 出 异常 ， 在 用 删除 命令 时 加 if exists 可 选 
实现 目标 对 象 存在 时 才 执 行 删除 操作 ， 否 则 抛 出 异常 。 


2. create/drop/truncate 表 


Hive 表 逻 辑 上 包括 两 部 分 ,分别 为 数据 和 用 于 描述 数据 在 表 中 布 
局 的 元 数据 ， 数 据 存储 在 Hadoop 文件 系统 中 ，Hive 元 数据 存储 在 关系 
数据 库 中 。 

创建 表 〈 除 外 部 表 ) 实现 在 数据 仓库 目录 创建 一 个 子 目录 ， 导 入 数 
据 到 Hive 表 的 过 程 是 将 数据 移动 (数据 在 HDFS 上 ) 或 复制 (数据 在 本 
地 文件 系统 中 ) 到 Hive 表 所 在 的 HDFS 目录 中 。 比 如 当 创 建 一 个 内 部 表 
mytable， 则 Hive 在 数据 仓库 目录 (默认 位 置 /user/hive/warehouse) 下 创建 
子 目录 mytable, mytable 表 中 数据 存储 在 mytable 目录 下 。 若 在 创建 Hive 
表 的 过 程 中 未 指定 任何 数据 库 名 ， 则 Hive 表 属 于 default 数据 库 实例 。 

任务 : 在 本 地 文件 系统 的 /home 下 建立 文本 文件 stu.txt， 文 件 内 容 
如 图 4-11 所 示 〈 注 意 各 项 之 间 用 【Tab】 键 分 隔 )。 创 建 表 mytable， 导 
入 stutxt 表 中 数据 ,验证 mytable 表 中 数据 与 stu.txt 文件 中 的 数据 一 致 。 


= = 


£ xs1 female 21 

z xs2 male 21 

3 xs3 female 22 

4 xs4 male 20 

5 xs5 female 21 

6 xs6 male 22 

7 xs7 male 21 

8 xs8 female 22 

9 xs9 female 23 

10 xs10 male 20 

4-11 文本 文件 stu.txt 中 数据 
关键 操作 步骤 及 命令 结果 : 
hive>create table mytable(id int,name string,gender string,age int) row 
format delimited fields terminated by '\t'; # 创 建 表 


hive>load data local inpath '/home/stu.txt' overwrite into table mytable; 
# 将 本 地 文件 stu.txt 中 的 数据 导入 到 表 mytable 中 


hive> dfs -Is /user/hive/warehouse; # 查 看 HDFS 下 对 应 目录 
hive>select * from mytable; # 查 询 表 mytable 中 数据 
hive> select * from mytable; 

OK 

1 xsl female 21 

2 x832 male 21 

3 xs3 female 22 

4 xs4 male 20 

5 xs5 female 21 

6 Xa6 male 22 

7 xs7 male 21 

8 xs8 female 22 

9 xs9 female 23 

10 xs10 male 20 


NULL NULL NULL NULL 
Time taken: 0.999 seconds, Fetched: 11 row(s) 


(1) 创建 表 
任务 : 创建 内 部 表 tb1， 有 三 个 字段 : 第 一 列 名 为 id， 数 据 类 型 为 


int， 第 二 列 名 为 name， 数 据 类 型 为 string， 并 验证 存储 在 默认 目录 下 。 
提示 : location 关键 字 指 定 表 数据 在 HDFS 的 存储 位 置 。 
关键 操作 步骤 及 命令 结果 : 
hive> create table tb1(id int,name string); # 创 建 表 
hive> dfs -Is /user/hive/warehouse; # 验 证 创建 操作 
drwxrwxr-x - root supergroup 0 2017-08-11 12:20 /user/hive/warehouse/tbl 
任务 : 在 指定 路 径 '/user/hive' 创 建 表 tb2， 并 验证 表 tb2 存储 在 指定 
路 径 。 


关键 操作 步骤 及 命令 结果 : 


hive> create table tb2(id int,name string) location ‘/user/hive/tb2"; 
# 创 建 表 且 存储 在 指定 路 径 
hive> dfs -Isr /user/hive; # 验 证 创建 操作 


drwxr-xr-x - root superqroup 0 2017-08-11 12:21 /user/hive/tb2 


任务 : 创建 表 tb3， 且 在 创建 的 同时 加 载 数据 〈 表 mytable 中 所 有 


数据 )， 数 据 间 用 逗号 “,” 分 隔 ， 并 验证 。 


符 ， 


提示 : row format delimited fields terminated by 子 句 指定 列 分 隔 
默认 分 隔 符 为 【Tab】 键 。 用 命令 dfs -cat 进行 验证 。 
关键 操作 步骤 及 命令 结果 : 


hive> create table tb3 row format delimited fields terminated by '' AS 
select * from mytable; 


hive> create table tb3 row format delimited fields terminated by ',' AS select * from mytable; 
WARNING: Hive-on-MR is deprecated in Hive 2 and may not be available in the future versions. Cor 
a different execution engine (i.e. tez, spark) or using Hive 1.X releases. 

Query ID = root_20170811122302_39e9d945-cela-4bfd-b53d-260delcab059 

Total jobs = 3 

Launching Job 1 out of 3 

Number of reduce tasks is set to 0 since there's no reduce operator 

Job running in-process (local Hadoop) 

2017-08-11 12:23:05,001 Stage-1 map = 100%, reduce = 0% 

Ended Job = job_local1439164963_0001 

Stage-4 is selected by condition resolver. 

Stage-3 is filtered out by condition resolver. 

Stage-5 is filtered out by condition resolver. 

Moving data to directory hdfs://master:8020/user/hive/warehouse/.hive-staging_hive_2017-08-11_1; 
5942501586777504367-1/-ext-10002 

Moving data to directory hdfs://master:8020/user/hive/warehouse/tb3 

MapReduce Jobs Launched: 

Stage-Stage-1: HDFS Read: 306 HDFS Write: 385 SUCCESS 

Total MapReduce CPU Time Spent: 0 msec 

OK 

Time taken: 2.613 seconds 

hive> 


hive> dfs -Isr /Juser/hive/warehouse; 


drwxrwxr-x - root supergroup 0 2017-08-11 12:23 /user/hive/warehouse/tb3 
-rwxrwxr-x 3 root supergroup 164 2017-08-11 12:23 /user/hive/warehouse/tb3/000000 0 


hive> dfs -cat /user/hive/warehouse/tb3/000000_0; 


hive> dfs -cat /user/hive/warehouse/tb3/000000_0; 
1,xs1,female,21 
2,xs2,male,21 
3,xs3,female,22 
4,xs4,male,20 
S,xs5,female,21 
6,xs6,male,22 
7,xs7,male,21 
8,xs8,female,22 
9,xs9,female,23 
10,xs10,male,20 


上 述 命令 在 创建 表 的 同时 加 载 select 语句 的 查询 结果 数据 (创建 表 


和 数据 加 载 同 时 完成 )，row format delimited fields terminated by 子 句 指 
定 列 分 隔 符 。“/user/hive/warehouse/tb3 ”是 创建 tb3 表 后 自动 在 HDFS 
上 建立 的 目录 ,“/user/hive/warehouse/tb3/000000_0” 是 在 tb3 表 中 导入 
数据 后 自动 建立 的 存储 数据 文件 。 


创建 表 过 程 中 输出 的 大 段 代码 为 Hive 在 执行 HQL 语句 时 HQL ië 


句 翻译 成 MapReduce 作业 的 对 应 代码 ， 在 此 列 出 让 读者 感受 Hive 的 实 


质 是 HDFS 和 MapReduce 的 翻译 终端 。 

任务 : 创建 分 区 表 tb part (分 区 字段 gender sting); 显示 tb part 
表 列 以 验证 创建 了 分 区 字段 ; 将 mytable 表 中 gender 值 为 'male' 的 数据 
插入 分 区 gender='"M' 中 ;查询 tb_part 表 , 列 出 表 中 所 有 数据 ;查看 HDFS 
上 的 文件 以 验证 gender='M' 分 区 中 存储 了 数据 。 

关键 操作 步骤 及 命令 结果 : 


hive> create table tb_part(id intname string,age int) partitioned by(gender 
string) row format delimited fields terminated by ''; # 创 建 分 区 表 


hive> desc tb_part; # 显 示 tb_part 表 列 
hive> desc tb part; 

OK 

id int 

name string 

age int 

gender string 


# Partition Information 
# col_name data_type comment 


gender string 
Time taken: 0.086 seconds, Fetched: 9 row(s) 


hive> insert overwrite table tb_part partition(gender='M') 
select id,name, age from mytable where gender='male'; 
# 向 分 区 表 tb_part 的 gender='M' 分 区 导入 数据 
hive> select * from tb_part;”# 查 询 表 tb_part 


hive> select * from tb part; 


OK 

2 xs2 21 M 

4 x34 20 M 

6 xs6 22 M 

7 xs7 21 M 

10 xs10 20 M 

hive> dfs -Isr /user/hive/warehouse; # 查 看 数据 仓库 下 的 分 区 目录 







drwxrwxr-x 
drwxąrwxz-x /hive/warehouse/tb_part/gender=M 


47 2017-08 /hive/warehouse/tb part/gender=M/000000 0 





hive> dfs -cat /user/hive/warehouse/tb_part/gender=M/000000_0; 
# 查 看 数据 仓库 下 分 区 数据 存储 


hive> dfs -cat /user/hive/warehouse/tb part/gender=M/000000 0; 
2,xs2,21 

4,x34,20 

6,xs6,22 

7,xs7,21 

10,xs10,20 


在 创建 分 区 表 tb_part 并 导入 数据 后 ， 在 HDFS 上 会 建立 相应 的 目录 
(/user/hive/warehouse/tb_part 和 /user/hive/warehouse/tb_part/gender=M) 和 
文件 (/user/hive/warehouse/tb_part/gender=M/000000_0)。Insert 命令 中 
使 用 overwrite 会 覆盖 表 或 分 区 中 的 原 有 数据 。 
任务 : 创建 桶 表 tb bucket, Z age 分 2 个 桶 ; 向 桶 中 插入 数据 ,， 通 
过 显示 tb_bucket 表 中 数据 、warehouse 目录 下 的 内 容 和 每 个 桶 中 的 数据 
进行 验证 。 做 抽样 查询 ， 查 询 2 个 桶 中 的 第 1 个 桶 ， 即 000000 0 文件 。 
关键 操作 步骤 及 命令 结果 : 


hive> set hive.enforce.bucketing=true; # 更 改 属 性 设置 使 Hive 能 识别 桶 
hive> create table tb_bucket(id int,name string,gender string,age int) 
clustered by(age) sorted by(gender) into 2 buckets row format delimited 
fields terminated by ','; # 创 建 桶 表 

hive> insert into table tb_bucket selectid,name,gender,age from mytable; 
# 向 桶 表 tb_bucket 中 导入 数据 

hive> dfs -Isr /user/hive/warehouse; # 查 看 HDFS 下 对 应 存储 目录 


drwxrwxr-x - root supergroup 0 2017-08-11 12:32 /user/hive/warehouse/tb_bucket 
-zwxrwxr-x 3 root supergroup 88 2017-08-1. 2 /user/hive/warehouse/tb_bucket/000000_0 





-rwxrwxr-x 3 root supergroup 76 2017-08-11 12:32 /user/hive/warehouse/tb bucket/000001 0 
hive> select * from tb_bucket; # 查 询 桶 表 tb_bucket 
hive> select * from tb_bucket; 

OK 

8 xs8 female 22 

3 xs3 female 22 

10 xs10 male 20 

6 xs6 male 22 

4 xs4 male 20 

9 xs9 female 23 

5 xs5 female 21 

pS xs1 female 21 

| xs7 male 21 

2 xs2 male 21 


hive> dfs -cat /user/hive/warehouse/tb_bucket/000000_0; 
# 查 看 数据 仓库 下 分 桶 数据 存储 


hive> dfs -cat /user/hive/warehouse/tb_bucket/000000_0; 
8,xs8,female,22 

3,xs3,female,22 

10,xs10,male,20 

6,xs6,male,22 

4,xs4,male,20 


hive> dfs -cat /user/hive/warehouse/tb_bucket/000001_0; 
# 查 看 数据 仓库 下 分 桶 数据 存储 


hive> dfs -cat /user/hive/warehouse/tb bucket/000001 0; 
9,x39, female,23 

S ,xs5,female,21 

1,xs1,female,21 

7,xs7,male,21 

2,xs2,male,21 


hive>select * from tb_bucket tablesample (bucket 1 out of 2 on age); 
# 对 桶 取样 操作 


hive> select * from tb bucket tablesample (bucket 1 out of 2 on age); 


OK 

8 xs8 female 22 
3 X33 female 22 
10 x310 male 20 
6 xs6 male 22 
4 X34 male 20 


在 建立 桶 之 前 , 需要 设置 “hive.enforce.bucketing” 属 性 为 true, 使 Hive 
能 够 识别 桶 ， 使 用 命令 “hive> set hive.enforce.bucketing=true; ”完成 。 

在 向 分 桶 表 tb_bucket 导入 数据 时 , Insert 命令 中 使 用 into 会 以 追加 
的 方式 添加 查询 结果 数据 。 建 立 分 桶 表 并 导入 数据 后 , 在 HDFS 上 会 建 
立 相 应 的 目录 “/user/hive/warehouse/tb_bucket ”和 文件 “/userhive/ 
warehouse/tb_bucket/000000_0”( 存 储 了 年 龄 20 和 22 的 数据 ) 和 “/user/ 
hive/warehouse/tb_bucket/000001_0”( 存 储 了 年 龄 21 和 23 的 数据 )。 

hive 创建 内 部 表 时 , 会 将 数据 移动 到 数据 仓库 指向 的 路 径 ; 若 创 建 
外 部 表 ， 仅 记录 数据 所 在 的 路 径 ， 不 对 数据 的 位 置 做 任何 改变 。 

任务 : 创建 外 部 表 tb_ext， 指 向 “/root/data/xsxx.txt” 文 件 ， 并 查 
看 数据 仓库 目录 (创建 tb_ext 前 先 建立 文本 文件 xsxx.txt)。 

关键 操作 步骤 及 命令 结果 : 

hive> create external table tb_ext(id int,name string,gender string,age int) 

row format delimited fields terminated by 'Vt' 


location ‘/root/data/xsxx.txt'; # 创 建 外 部 表 
hive> show tables; # 显 示 表 


任务 : 在 mydb 数据 库 中 创建 表 tb4， 其 结构 与 表 默认 数据 库 中 的 
tbl 结构 相同 ; 验证 mydb 数据 库 中 包含 tb4 文件 ， 且 其 结构 与 tbl 结构 
相同 。 


关键 操作 步骤 及 命令 结果 : 

hive> create table mydb.tb4 like tb1; ” # 在 指定 数据 库 mydb 中 创建 表 tb4 
hive> use mydb; 天 J 开 指 定数 据 库 mydb 

hive> show tables; # 显 示 当前 数据 库 mydb 中 的 表 


hive> desc tb4; # 显 示 tb4 表 列 
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hive> use default; #FI3TERA A SSE EE default 
hive> desc tb1; # 显 示 tb1 表 列 


hive> create table mydb .tb4 like tbl; 
OK 

Time taken: 0.12 seconds 

hive> use mydb; 

OK 

Time taken: 0.019 seconds 

hive> show tables; 

OK 

tb4 

Time taken: 0.03 seconds, Fetched: 1 row(s) 
hive> desc tb4; 


OK 
id int 
name string 


Time taken: 0.073 seconds, Fetched: 2 row(s) 
hive> use default; 

OK 

Time taken: 0.02 seconds 

hive> desc tb1; 


OK 
id int 
name string 


Time taken: 0.068 seconds, Fetched: 2 row(s) 


创建 表 时 ， 在 表 名 前 加 “ .数据 库 名 ”可 指定 表 所 属 的 数据 库 ， 否 


则 在 默认 数据 库 中 创建 。 若 要 创建 的 表 与 已 有 表 结 构 相 同 , 可 以 在 创建 
表 时 加 关键 字 like, like 关键 字 实现 只 复制 表 定义 ， 不 复制 表 数 据 。 


(2) 显示 表 
使 用 show tables 命令 查看 数据 库 中 的 所 有 表 对 象 。 
hive>use mydb; 
hive>show tables; 
hive>use default; 


hive>show tables; 
hive>show tables 'tb* '; # 显 示 tb_ 开 头 的 所 有 表 


Hive 支持 正则 查询 ，show tables 'tb*'; 命 令 输出 以 “tb” 开 始 的 所 有 表 。 
(3) 显示 表 列 
使 用 describe 命令 显示 表 中 定义 的 列 (字段 ), 可 以 只 输入 describe 


的 前 四 个 字母 desc， 下 列 两 个 命令 的 功能 相同 。 


hive>describe tb_part; # 显 示 tb_part 表 列 
hive>desc tb_part; # 显 示 tb_part 表 列 
(4) 截断 表 


截断 表 是 删除 表 中 所 有 行 ， 当 前 只 支持 内 部 表 ， 和 否则 会 抛 出 异常 。 


hive> select * from tb3; 
hive> truncate table tb3; # 删 除 tb3 表 中 所 有 行 
hive> select * from tb3; 


hive> select * from tb3; 


OK 

= xs1 female 21 
2 xs2 male 21 
3 xs3 female 22 
£ xs4 male 20 
5 xs5 female 21 
6 xs6 male 22 
7 xs7 male 21 
8 xs8 female 22 
9 xs9 female 23 
10 xs10 male 20 


NULL NULL NULL NULL 

Time taken: 0.132 seconds, Fetched: 11 row(s) 
hive> truncate table tb3; 

OK 

Time taken: 0.148 seconds 

hive> select * from tb3; 

OK 

Time taken: 0.126 seconds 


(5) 删除 表 
hive>drop table if exists tb1; 


在 用 删除 命令 时 加 if exists 可 选项 ， 实 现在 目标 对 象 存 在 时 才 执 行 
删除 操作 ， 和 否则 抛 出 异常 。 

在 删除 表 时 ， 内 部 表 的 元 数据 和 数据 会 被 一 起 删除 , 而 外 部 表 只 删 
除 元 数据 ， 不 删除 数据 ， 如 果 只 需要 删除 外 部 表 数 据 ， 而 保留 表 名 ， 可 
以 在 HDFS 上 用 dfs-rm 删除 数据 文件 。 


3. alter 表 / 分 区 / 列 


修改 操作 使 用 alter table 命令 ， 可 以 改变 现 有 表 、 分 区 或 列 的 结构 
信息 ， 包 括 增加 列 /分 区 、 表 重 命名 、 修 改 特定 分 区 或 列 的 属性 信息 等 。 


(1) 更 改 表 名 
任务 : 将 表 tb3 重 命名 为 stu tb3, 查看 数据 仓库 目录 数据 存储 验证 
更 改 。 
关键 操作 步骤 及 命令 结果 : 
hive> show tables; # 显 示 表 
hive> alter table tb3 rename to stu_tb3; # 更 改 表 名 
hive> show tables; # 显 示 表 


hive> dfs -Isr /user/hive/warehouse; # 查 看 改名 后 的 数据 仓库 目录 


hive> show tables; 


tb_part 

Time taken: 0.032 seconds, Fetched: 7 row(s) 
hive> alter table tb3 rename to stu_tb3; 

oK 

Time taken: 0.156 seconds 

hive> show tables; 


tb_bucket 

tb_ext 

tb_part 

Time taken: 0.029 seconds, Fetched: 7 row(s) 

hive> dfs -lsr /user/hive/warehouse; 

lsr: DEPRECATED: Please use '13 -R' instead. 

drwxrwxr-x  - root supergroup 0 2017-08-11 12:56 /user/hive/warehouse/ftu-tb3) 


表 重 命名 会 同时 改变 其 位 于 HDFS 上 的 路 径 ， 上 面 的 操作 中 表 tb3 

改名 为 stu_tb3 后 ， 数 据 仓库 中 也 由 tb3 目录 更 改 为 stu_tb3 目录 。 
(2) 增加 列 和 列 注释 

在 alter 命 令 中 加 add columns 和 comment 关键 字 实 现在 表 中 增加 新 
的 列 和 添加 注释 ， 新 列 出 现在 分 区 列 之 前 。 

任务 : 在 stu tb3 表 中 新 增 列 score， 类 型 float， 新 增 列 rank, A 
int， 同 时 加 注释 “cong gao dao di pai ming”, 

关键 操作 步骤 及 命令 结果 : 


hive> alter table stu_tb3 add columns(score float); ” # 在 表 中 新 增 列 score 
hive> alter table stu_tb3 add columns(rank int comment 'cong gao dao di 
pai ming'); # 在 表 中 新 增 列 rank 并 添加 注释 

hive> desc stu_tb3; # 显 示 表 列 

hive> alter table stu_tb3 add columns (rank int comment 'cong gao dao di pai ming'); 
OK 


Time taken: 0.132 seconds 
hive> desc stu_tb3; 


oK 

id int 

name string 

gender string 

age int 

score float 

rank int cong gao dao di pai ming 


Time taken: 0.077 seconds, Fetched: 6 row(s 


(3) 修改 列 
在 alter table 命令 中 加 关键 字 change 修改 列 , 修改 列 包括 修改 列 的 
名 称 、 列 的 数据 类 型 、 列 的 位 置 和 列 的 注释 ， 修 改 列 名 时 ， 一 定 要 同时 
指定 数据 类 型 。 另 外 在 命令 中 加 after 和 first 关键 字 定位 列 在 某 列 之 后 
或 在 第 一 列 。 


任务 : 创建 表 tb_change, 包含 a、b 和 ec 三 列 ， 显 示 表 列 ， 修改 列 
X stu a; 显示 表 列 验证 修改 ; 修改 列 名 stu_a 为 a， 并 出 现在 b 列 
显示 表 列 验证 修改 。 

关键 操作 步骤 及 命令 结果 : 


hive>create table tb_change (a int,b int, c int); # 创 建 表 

hive> desc tb_change; # 显 示 表 列 
hive>alter table tb_change change a stu_a int; # 修 改 列 名 a 为 stu_a 
hive> desc tb_change; # 显 示 表 列 验证 修改 


hive> alter table tb_change change stu_a a string after b; 
# 修 改 列 名 stu_a 为 a， 并 且 出 现在 b 列 后 〈 加 after 关键 字 ) 
hive> desc tb_change; # 显 示 表 列 验证 修改 


hive> create table tb_change (a int,b int, c int); 
OK 

Time taken: 0.089 seconds 

hive> desc tb_change; 


OK 

a int 
b int 
c int 


Time taken: 0.069 seconds, Fetched: 3 row(s) 
hive> alter table tb_change change a stu_a int; 
oK 

Time taken: 0.132 seconds 

hive> desc tb_change; 


OK 

stu a int 
b int 
e inc 


Time taken: 0.069 seconds, Fetched: 3 row(s) 

hive> alter table tb_change change stu_a a string after b; 
OK 

Time taken: 0.162 seconds 

hive> desc tb_change; 


OK 

b int 

a string 
ë inc 


Time taken: 0.073 seconds, Fetched: 3 row(s) 


在 alter table 命令 中 加 关键 字 replace columns 可 更 改 列 名 ， 而 原 有 


数据 不 发 生 改 变 ， 即 数据 不 动 。 比 如 下 面 的 命令 在 tb_change 表 中 更 改 
所 有 列 名 ， 而 数据 不 变 。 


hive> alter table tb_change replace columns(stu_b int,stu_a string ,stu_c 
int); # 修 改 列 名 

hive> desc tb_change; # 显 示 表 列 验证 修改 

hive> alter table tb_change replace columns(stu_b int,stu_a string ,stu_c int); 
OK 


Time taken: 0.136 seconds 
hive> desc tb_change; 


OK 

stu_b int 
stua string 
stu_c int 


Time taken: 0.065 seconds, Fetched: 3 row(s) 





在 alter table 命令 中 加 关键 字 replace columns 还 可 以 实现 删除 列 。 
比如 下 面 的 命令 实现 删除 tb_change 表 的 stu_a 和 stu_b 两 列 。 


hive> alter table tb_change replace columns (stu_c int); # 修 改 列 
hive> desc tb_change; # 显 示 表 列 验证 修改 


hive> alter table tb change replace columns (stu c int); 
OK 

Time taken: 0.13 seconds 

hive> desc tb change; 

OK 

stu_c int 

Time taken: 0.067 seconds, Fetched: 1 row (s) 


(4) 增加 和 删除 分 区 
任务 : 在 tb part 表 中 添加 一 个 分 区 gender='F'， 查 看 tb_part 表 的 
分 区 验证 是 否 添加 分 区 ; 向 分 区 gender='F' 中 导入 数据 ， 查 看 数据 仓库 
目录 变化 ， 查 看 分 区 gender='F' 中 的 数据 ， 删 除 gender='M' 分 区 ， 查 看 
表 分 区 和 数据 仓库 目录 ， 验 证 分 区 gender='M'" 被 删除 。 
关键 操作 步骤 及 命令 结果 : 


hive>show partitions tb_part; 。“”# 查 看 增加 分 区 前 tb_part 中 的 分 区 
hive> alter table tb_part add partition (gender='F'); 

# 在 分 区 表 tb_part 中 增加 gender='F' 分 区 

hive>show partitions tb_part; # 查 看 增加 分 区 后 表 tb_part 中 的 分 区 


hive> show partitions tb_part; 

OK 

gender=M 

Time taken: 0.15 seconds, Fetched: 1 row(s) 
hive> alter table tb_part add partition (gender='F'); 
OK 

Time taken: 0.158 seconds 

hive> show partitions tb part; 

OK 

gender=F 

gender=M 

Time taken: 0.152 seconds, Fetched: 2 row(s) 








hive> insert overwrite table tb_part partition(gender='F') select id,name, 
age from mytable where gender='female'; 

# 向 分 区 gender='F' 中 导入 数据 

hive> dfs -Isr /user/hive/warehouse:; # 查 看 数据 仓库 目录 


drwxrwxr-x 
drwxrwxr-x 
-rwxrwxr-x 


:16 /user/hħive/warehouse/tb_part 
17 /user/hive/warehouse/tb_part/gender=F 
/user/hive/warehouse/tb_part/gender=F/000000_0 
/user/hive/warehouse/tb_part/gender=M 
12:29 /user/hive/warehouse/tb_part/gender=M/000000_0 





drwxrwxr-x - root supergroup 
-rwxrwxr-x 3 root supergroup 47 2 


soooo 


hive> dfs -cat /user/hive/warehouse/tb_part/gender=F/000000_0; 
# 查 看 分 区 gender='F' 中 的 数据 


hive> dfs -cat /user/hive/warehouse/tb part/gender=F/000000 0; 
3,z51,21 

3S;,xs3, 22 
S,xs5,21 
8,xs8,22 
9,xs9,23 


hive> alter table tb_part drop if exists partition (gender='M'); 

# 删 除 分 区 表 tb_part 中 gender='M' 分 区 

hive>show partitions tb_part; — # 查 看 删除 分 区 后 表 tb_part 中 分 区 
hive> dfs -Isr /Juser/hive/warehouse; ` # 查 看 删除 分 区 后 数据 仓库 目录 变化 


hive> alter table tb_part drop if exists partition (gender='M'); 
Dropped the partition gender=M 

OK 

Time taken: 0.219 seconds 

hive> show partitions tb_part; 

OK 

gender=F 

Time taken: 0.116 seconds, Fetched: 1 row(s) 

drwxrwxr-x -= 


drwxrwxr-x 
-zwxrwxr-x 3 


0 2017-08-11 13:50 /user, 
0 2017-08-11 13:47 /user, 
45 2017-08-11 13:47 /user 


注意 分 区 是 以 字段 的 形式 在 表 结 构 中 存在 , 通过 “describe < 表 名 >” 
命令 可 以 查看 到 字段 存在 , 但 是 该 字段 不 存放 实际 数据 内 容 , 仅仅 是 分 
区 的 表示 《〈 伪 列 )， 分 区 列 的 值 会 转化 为 文件 夹 存储 路 径 。 另 外 通常 需 
要 预先 创建 好 分 区 ， 然 后 才能 使 用 该 分 区 。 


4. Create/Drop/Alter 视图 


Hive 只 支持 逻辑 视图 ， 不 支持 物理 视图 ， 建 立 视图 可 以 在 MySQL 
元 数据 库 中 看 到 创建 的 视图 表 ， 但 是 在 Hive 的 数据 仓库 目录 下 没有 相 
应 的 视图 表 目 录 。 Hive 支持 RDBMS 视图 的 所 有 功能 , 包括 创建 、 删 除 、 
修改 视图 。 视 图 是 只 读 的 ， 视 图 结果 在 创建 之 初 就 确定 ， 后 续 对 与 视图 
相关 的 表 结构 的 修改 不 会 反映 到 视图 上 。 创建 视图 时 若 select 子 句 执行 
失败 ，create view 创建 视图 操作 也 将 会 失败 。 

任务 : 创建 视图 tb view; 查看 创建 的 视图 中 数据 ; 修改 视图 tb view: 
查看 修改 后 的 视图 tb_view; 删除 视图 tb_view。 







_part/gender=F 
_part/gender=F/000000_0 





关键 操作 步骤 及 命令 结果 : 
hive> create view tb_view as select gender, avg(age) from mytable group 
by gender; # 创 建 视图 


hive> select * from tb_view; # 查 看 创建 的 视图 


具 Hive 
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等 ， 


hive> select * from tb_view; 
WARNING: Hive-on-MR is deprecated in Hive 2 and may not be available in the 
a different execution engine (i.e. tez, spark) or using Hive 1.X releases. 
Query ID = root_20170811135423_6eff19d3-a5bb-45b8-8b28-0e9b4dbc1604 
Total jobs = 1 
Launching Job 1 out of 1 
Number of reduce tasks not specified. Estimated from input data size: 1 
In order to change the average load for a reducer (in bytes): 
set hive.exec.reducers.bytes.per.reducer=<number> 
In order to limit the maximum number of reducers: 
set hive.exec.reducers.max=<number> 
In order to set a constant number of reducers: 
set mapreduce.job.reduces=<number> 
Job running in-process (local Hadoop) 
2017-08-11 13:54:25,268 Stage-1 map = 100%, reduce = 100% 
Ended Job = job local506192263 0008 
MapReduce Jobs Launched: 
Stage-Stage-1: HDFS Read: 7554 HDFS Write: 2494 SUCCESS 
Total MapReduce CPU Time Spent: 0 msec 
OK 
NULL NULL 
female 21.8 
male 20.8 
Time taken: 1.564 seconds, Fetched: 3 row(s) 


hive>drop view tb_view; # 删 除 视图 


5. Hive 函数 


Hive 中 内 置 了 许多 函数 , 比如 日 期 操作 函数 day(0、year0 和 month() 
数值 操作 函数 sum0、avg0、max(0、min0 和 count() 等 。 但 在 某 些 


特殊 场景 下 ,可 能 还 是 需要 自 定义 函数 以 满足 特定 功能 ， 这 时 要 用 用 户 
自 定义 函数 UDF， 它 接受 单行 输入 ， 并 产生 单行 输出 。 


Hive Shell 下 ， 用 下 面 的 命令 显示 内 置 函数 。 


hive>show functions; 


要 显示 函数 的 描述 信息 用 desc function < 函数 名 >, 比如 下 面 的 命令 


显示 sum() 函 数 的 描述 信息 。 


hive>desc function sum; 


hive> desc function sum; 

OK 

sum(x) - Returns the sum of a set of numbers 
Time taken: 1.097 seconds, Fetched: 1 row(s) 


Hive 只 支持 Java 编写 的 UDF， 其 他 的 编程 语言 只 能 通过 select 


transform 转化 为 流 来 与 Hive 交互 。 定 义 和 使 用 UDF 函数 的 流程 如 下 。 


a) 自 定义 一 个 Java 类 。 
(2) 继承 UDF 类 。 

(3) 重 写 evaluate 方法 。 
(4) 打 成 jar 包 。 


(5) 进入 Hive 的 shell， 用 add jar 命令 把 jar 包 导 入 Hive 的 环境 


(6) 用 create temporary function as 命令 基于 jar 包 中 的 类 创建 临时 
函数 。 
(7) HQL 中 使 用 UDF 函数 。 


4.5.3 DML 语句 


DML (Data Manipulation Language， 数 据 操作 语言 ) 操作 包括 将 文 
件 中 的 数据 导入 (load) 到 Hive 表 中 、select 查询 操作 、 将 select 查询 
结果 插入 Hive 表 中 、 将 select 查询 结果 写 入 文件 等 内 容 。 下 面 分 别 介 
绍 以 上 操作 。 


1. 将 文件 中 的 数据 导入 (load) 到 Hive 表 中 


load 操作 执行 复制 /移动 命令 , 把 数据 文件 复制 /移动 到 Hive 表 位 于 
HDFS 上 的 目录 中 ， 并 不 会 对 数据 内 容 执行 格式 检查 或 格式 转换 操作 。 
如 果 文件 位 于 本 地 ， 要 使 用 local 关键 字 ， 如 果 文 件 位 于 HDFS 上 则 不 
加 local 关键 字 。 加 关键 字 overwrite 会 删除 表 中 已 有 数据 。 

注意 在 向 Hive 表 中 导入 数据 前 ， 首 先 要 准备 好 要 导入 的 数据 。 

任务 : 创建 表 pokes 和 invites (包含 分 区 字段 ds); 将 本 地 系统 文 
fE kvl.txt 中 的 数据 导入 到 pokes 表 ; 将 本 地 系统 的 文件 kv2.txt 中 的 数 
据 导 入 到 表 invites 的 ds='2017-03-20' 分 区 ; 将 存储 于 HDFS 上 的 文件 
kv3.txt 中 的 数据 导入 到 表 invites 的 ds='2017-03-21' 分 区 。 

关键 操作 步骤 及 命令 结果 : 


hive> create table pokes (foo int, bar string); # 创 建 表 pokes 

hive> create table invites (foo int, bar string) partitioned by (ds string); 

# 创 建 表 invites， 包 含 一 个 分 区 字段 ds 

hive> load data local inpath /home/kv1.txt' overwrite into table pokes; 

# 将 本 地 文件 ”kv1.txt 中 的 数据 导入 到 表 pokes 中 

hive> load data local inpath /home/kv2.txt' overwrite into table invites 
partition (ds='2017-03-20'); # 导 入 本 地 文件 kv2 txt 数据 到 表 分 区 
hive> dfs -put /home/kv3.txt /user; # 上 传 文件 kv3.txt 到 HDFS 上 

hive> load data inpath ‘/user/kv3.txt" overwrite into table invites partition 
(ds='2017-3-21'); # 导 入 HDFS 上 文件 数据 到 表 分 区 
hive> dfs -Isr /user/hive/warehouse; ”# 查 看 数据 仓库 目录 

hivey des -lar / 


Isr: 
drwa: 






2. select 和 filters 

Hive select 操作 的 语法 与 SQL-92 规范 几乎 没有 区 别 。 
(1) 简单 select 操作 。 

hive>select * from mytable; # 查 询 表 中 所 有 行 和 列 


(2) 限制 条 数 查 询 limit。 
hive>select * from mytable limit 3; # 从 表 中 随机 查询 3 条 记录 


Limit 关键 字 用 来 限制 查询 的 记录 数 。 查 询 的 结果 是 随机 选择 的 。 
(3) top N 查询 。 


hive>set mapred.reduce.tasks= 2; # 设 置 MapReduce 任务 数 为 2 


hive>select * from mytable sort by age desc limit 3; 
# 查 询 年 龄 最 大 的 3 个 人 


OK 

9 xs9 female 23 
3 xs3 female 22 
8 xs8 female 22 


(4) 不 输出 重复 记录 的 查询 。 
hive>select distinct id,name from mytable; # 查 询 不 重复 记录 


select 查询 时 加 distinct 关键 字 实 现 查询 返回 不 重复 的 行 。 
(5) 基于 Partition 的 查询 。 


hive>select * from tb_part where gender='F'; # 查 询 分 区 数据 
hive> select * from tb_part where gender='F'; 

OK 

1 xs1 21 F 

3 xs3 22 F 

s xs5 21 ” 

8 xs8 22 F 

9 xs9 23 m” 

Time taken: 0.186 seconds, Fetched: 5 row(s) 


hive>select count(*) from tb_part where gender='F'; ”# 查 询 中 使 用 函数 
OK 


5 
Time taken: 1.51 seconds, Fetched: 1 row(s) 


在 对 表 中 的 数据 进行 统计 查询 时 ， 也 可 能 按 一 定 的 类 别 进行 统计 ， 
和 MySQL 中 一 样 使 用 group by， 按 某 个 字段 或 者 多 个 字段 中 的 值 进行 
分 组 ,字段 中 的 值 相同 为 一 组 。 还 可 以 在 查询 中 使 用 函数 ， 比 如 上 述 命 
令 中 使 用 count(*)， 查 询 在 tb part 表 gender='M' 分 区 中 有 几 条 数据 。 下 
面 命令 实现 分 别 统计 mytable 表 中 字段 值 为 “female” 和 “male” 的 平 














均 年 龄 (age 字段 )。 


hive>select gender,avg(age) from mytable group by gender; 
OK 

NULL NULL 

female 21.8 

male 20.8 

Time taken: 1.527 seconds, Fetched: 3 row(s) 


Hive 中 reduce 任务 个 数 设置 对 执行 效率 有 很 大 的 影响 : reduce X 
少 ， 相 对 数据 量 就 大 ， 导 致 reduce 异常 的 慢 ; reduce 太 多 ， 产生 的 小 
文件 就 多 ， 合 并 起 来 代价 太 高 ，namenode 的 内 存 占用 也 会 增 大 。 因 此 
设 定 reduce 个 数 是 调 优 的 经 常 手 段 , 用 set 命令 可 设置 MapReduce 任务 
数 , 比如 前 面 用 hive>set mapred.reduce.tasks= 2 设置 MapReduce 任务 数 
为 2。 

3. 数据 表 连 接 join 操作 


连接 是 将 两 个 表 中 在 共同 数据 项 上 相互 匹配 的 那些 行 合 并 起 来 ， 
HQL 的 连接 分 为 内 连接 、 左 外 连接 、 右 外 连接 、 全 外 连接 和 半 连 接 5 
种 。 下 面 通过 具体 的 任务 分 别 介绍 。 

任务 : 建立 测试 表 department (包含 部 门 编号 d id 和 部 门 名 称 
d_name 两 列 ) 和 employee WEERA eid, JEREZ e name, E 
员 年 龄 e_age 和 雇员 所 在 部 门 代码 e_d_id 四 列 )， 并 从 本 地 文件 系统 中 
导入 数据 ， 本 地 文件 数据 如 下 。 

“/data/department.txt” 文 件 内 容 如 下 (数据 之 间 用 tab 键 分 隔 )。 

1 网 络 部 


2 宣传 部 
3 研发 部 
5 人 事 部 
“/data/employee.txt” 文 件 内 容 如 下 数据 之 间 用 tab 键 分 隔 )。 
1 = 20 1 
2 李强 22 1 
3 赵 四 20 
4 郝 娟 20 4 
关键 操作 步骤 及 命令 结果 : 


hive>create table department(d_id int,d_name string) 

row format delimited fields terminated by "\t'; — # 创 建 表 department 

hive> create table employee(e_id int,e_name string,e_age int,e_d_id int) 
row format delimited fields terminated by \t; 。 # 创 建 表 employee 
hive>load data local inpath 'data/department.txt' overwrite into table 
department; ”# 导 入 本 地 文件 department.txt 中 数据 到 表 department 
hive>load data local inpath '/datalemployee.txt' overwrite into table 





employee; # 导 入 本 地 文件 employee .txt 中 数据 到 表 employee 


hive>select * from department; # 查 询 表 department 
hive>select * from employee; # 查 询 表 employee 
hive> dfs -Isr /user/hive/warehouse; # 查 看 数据 仓库 目录 


hive> select * from department; 


1:27 /user/hive/warehouse/department 
:27 /user/hive/warehouse/department/department. txt 
127 /user/hive/warehouse/employee 

:27 /user/hive/warehouse/employee/employee.txt 





(1) 内 连接 〈 等 值 连 接 ) 

内 连接 使 用 比较 运算 符 根据 每 个 表 共 有 的 列 的 值 匹配 两 个 表 中 的 
内 连接 要 用 关键 字 join…on。 

任务 : 检索 department 和 employee 表 中 标识 号 相同 的 所 有 行 。 
关键 操作 步骤 及 命令 结果 : 


hive> select b.e_name, a.d_name from department a join employee b on 


b.e_d_id= a.d_id; # 内 连接 查询 
OK 

王 红 网络 部 

李强 ”网络 部 

赵 四 ”宣传 部 


Time taken: 16.465 seconds, Fetched: 3 row(s) 


从 上 述 结果 可 以 看 出 ， 只 有 employee.e_d id 字段 值 与 department.d_id 


字段 值 相等 的 员工 才 会 被 显示 。 


(2) 左 外 连接 
左 连接 的 结果 集 包 括 “left outer” 子 句 中 指定 的 左 表 〈 关 键 字 left 


outer 左边 的 表 ) 的 所 有 行 ， 而 不 仅仅 是 连接 列 所 匹配 的 行 。 如 果 左 表 
的 某 行 在 右 表 关键 字 left outer 右边 的 表 ) 中 没有 匹配 行 ， 则 在 相关 
联 的 结果 集中 右 表 的 所 有 选择 列 均 为 空 值 。 左 外 连接 使 用 关键 字 left 


outer join***on。 


任务 : 查询 department 表 中 每 个 部 门 的 员工 。 
关键 操作 步骤 及 命令 结果 : 


hive> select a.d_id,a.d_name,b.e_name from department a left outer join 
employee b on(a.d_id=b.e_d_id); # 左 外 连接 查询 
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1 网 络 部 。 王 红 
1 网 络 部 ”李强 
2 宣传 部 。 赵 四 
3 研发 部 NULL 
5 ASH wL 


Time taken: 10.763 seconds, Fetched: 5 row(s) 


从 上 述 结果 可 以 看 出 ， 输 出 了 左 表 (department K) 的 所 有 行 ， 雇 
RK employee 中 没有 代码 为 3 的 研发 部 雇员 和 代码 为 的 人 事 部 雇员 ， 
所 以 对 应 位 置 上 显示 为 空 。 

(3) 右 外 连接 

右 连 接 是 左 向 外 连接 的 反 向 连接 ， 将 返回 右 表 (关键 字 right outer 
右边 的 表 ) 的 所 有 行 。 如 果 右 表 的 某 行 在 左 表 〈( 关 键 字 right outer 左边 
的 表 ) 中 没有 匹配 行 , 则 在 相关 联 的 结果 集中 左 表 的 所 有 选择 列 均 为 空 
值 。 右 外 连接 使 用 关键 字 right outer join…on。 

任务 : 查询 employee 表 中 每 个 员工 所 属 部 门 。 

关键 操作 步骤 及 命令 结果 : 

hive> select b.e_id,b.e_name,b.e_age,a.d_name from department a right 

outer join employee b on(a.d_id=b.e_d_id); # 右 外 连接 查询 


OK 


£ Z€ 20 网 络 部 
2 李强 22 网 阁 部 
3 赵 四 20 宣传 部 
4 卷 娟 20 NULL 


Time taken: 9.166 seconds, Fetched: 4 row(s) 


从 上 述 结果 可 以 看 出 ,输出 了 右 表 (employee 表 ) 的 所 有 行 ， 其 中 
第 4 条 数据 郝 娟 的 部 门 代 码 为 4， 而 部 门 表 department 中 没有 代码 为 4 
部 门 ， 所 以 对 应 位 置 上 显示 为 空 。 

(4) 全 外 连接 

全 连接 返回 左 表 和 右 表 中 的 所 有 行 。 当 某 行 在 另 一 表 中 没有 匹配 行 
时 ， 则 另 一 个 表 的 选择 列表 包含 空 值 。 如 果 表 之 间 有 匹配 行 ， 则 整个 结 
果 集 包含 基 表 的 数据 值 。 全 外 连接 要 用 关键 字 full outer join…on。 

任务 : 查询 部 门 和 员工 情况 。 


关键 操作 步骤 及 命令 结果 : 

hive> select a.*,b.* from department a full outer join employee b on(a.d_ 
id=b.e_d_id); # 全 外 连接 查询 

oR 

š 网 络 部 2 李强 22 1 

1 网 络 部 1 王 红 20 1 

* 宣传 部 3 赵 四 20 2 

3 研发 部 NULL NULL NULL NULL 

NULL NULL 4 HA 20 4 

5 AF NULL NULL NULL NULL 


Time taken: 1.592 seconds, Fetched: 6 row(s) 
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从 上 述 结果 可 以 看 出 , 输出 了 左 表 (department) MAR (employee 
表 ) 的 所 有 行 ， 可 以 清楚 了 解 到 每 个 部 门 有 哪些 员工 ， 每 个 员工 在 哪个 
部 门 。 其 中 第 5 条 数据 郝 娟 的 部 门 代码 为 4， 而 部 门 表 department 中 没 
有 代码 为 4 的 部 门 , 因此 对 应 位 置 上 显示 为 空 。 第 4 条 研发 部 和 第 6 条 
人 事 部 在 employee 表 中 没有 对 应 数据 ， 因 此 对 应 位 置 上 显示 为 空 。 

(5) 半 连 接 

半 连 接 是 Hive 所 特有 的 ，Hive 不 支持 IN 操作 ， 但 是 拥有 替代 方 
案 left semi join， 称 为 半 连 接 ， 需 要 注意 的 是 连接 的 表 不 能 在 查询 的 列 
中 ， 只 能 出 现在 on 子 句 中 。 

任务 : 列 出 能 在 department 表 中 查 到 ， 且 employee 表 中 有 其 对 应 
员工 信息 的 部 门 ， 列 出 能 在 employee 表 中 查 到 ， 且 department 表 中 有 
其 对 应 部 门 信 息 的 员工 。 


关键 操作 步骤 及 命令 结果 : 

hive> select a.* from department a left semi join employee b on(a.d_ 
id=b.e_d_id); # 半 连接 查询 

OK 

1 网 络 部 

2 宣传 部 


Time taken: 9.342 seconds, Fetched: 2 row(s) 


hive> select a.* from employee a left semi join department b on(a.e_d_id = 


b.d_id); # 半 连接 查询 
OK 

1 王 红 20 š 

2 李强 22 š 

3 赵 四 20 £ 


Time taken: 9.442 seconds, Fetched: 3 row(s) 


从 上 述 结果 可 以 看 出 ，department 表 中 只 有 代码 为 1 和 2 的 部 门 同 
时 在 employee 表 中 有 属于 这 两 个 部 门 的 员工 ， 因 此 第 1 次 半 连 接 查询 
只 输出 这 两 个 部 门 代码 和 其 对 应 的 名 称 。 同时 employee 表 中 只 有 王 红 、 
李强 和 赵 四 三 个 员工 所 在 部 门 在 department 表 中 能 同时 查询 到 , 因此 第 
2 次 半 连 接 查询 只 输出 他 们 的 信息 和 其 对 应 的 部 门 代码 ， 可 以 清楚 了 解 
到 每 个 部 门 有 哪些 员工 。 

在 使 用 join 操作 的 查询 语句 时 要 注意 , 应 该 将 条 目 少 的 表 或 者 子 查 
询 放 在 join 操作 符 的 左边 ， 由 于 在 join 操作 的 reduce 阶段 ，join 操作 
符 左 边 的 表 里 面 的 内 容 会 被 加 载 进 内 存 , 所 以 将 条 目 或 者 子 查 询 少 的 表 
放 在 左边 ， 可 以 有 效 减 少 发 生 OOM 错误 的 概率 。 

以 上 select 查询 中 ，Hive 调用 MapReduce 执行 语句 并 将 结果 输出 


到 控制 台 ， 也 可 以 把 Hive 的 查询 结果 通过 insert 命令 插入 Hive 的 新 表 
中 ， 或 者 将 查询 结果 写 入 或 导出 到 文件 中 。 


4. 将 select 查询 结果 导出 到 Hive 的 另 一 个 表 中 


通过 使 用 查询 子 句 从 其 他 表 中 获得 查询 结果 ， 然 后 使 用 insert 命令 
把 数据 插入 到 Hive 新 表 中 。 该 操作 包括 单 表 插入 〈 一 次 性 向 一 个 Hive 
表 插入 数据 ) 和 多 表 插 入 《〈 一 次 性 向 多 个 Hive 表 插 入 数据 )。 

任务 : 创建 表 tb_outl 和 tb _out2; 将 select 查询 结果 导入 tb_onutl 
和 tb_out2。 

关键 操作 步骤 及 命令 结果 : 

hive>create table tb_out1 as select id,name from mytable where age=20; 


hive> create table tb_out2(age int,number int); 
hive>select * from tb_out1; 


hive> select * from tb outl; 

OK 

4 xs4 

10 xs10 

Time taken: 0.113 seconds, Fetched: 2 row(s) 


hive>insert into table tb_out1 select id,name from mytable where age=21; 
# 以 追加 方式 向 tb_out1 表 导 入 数据 


hive>select * from tb_out1; # 验 证 tb_out1 表 中 追加 了 数据 
hive> select * from tb_outl; 

OK 

4 xs4 

10 xs10 

1 xsl 

2 xs2 

5 xs5 

+ xs7 


Time taken: 0.129 seconds, Fetched: 6 row(s) 


hive> insert overwrite table tb_out2 select age,count(id) from mytable 
group by age; # 向 tb_out2 表 导 入 数据 
hive>select * from tb_out2; # 验 证 数据 导入 成 功 


hive> select * from tb out2; 


N 
>; 
wN 


23 Ç 
Time taken: 0.109 seconds, Fetched: 5 row(s) 


可 以 一 次 性 向 多 个 Hive 表 插 入 数据 。 
任务 : 创建 表 tb_out3 和 tb_out4; 一 次 性 向 tb_out3 和 tb_out4 两 个 


表 中 导入 数据 。 
关键 操作 步骤 及 命令 结果 : 


hive>create table tb_out3 as select id,name from mytable where age=22; 
hive>select* from tb_out3; 


hive> select * from tb_out3; 


OK 

3 xs3 
6 xs6 
8 xs8 


Time taken: 0.114 seconds, Fetched: 3 row(s) 


hive> create table tb_out4(gender string,av_age float); 

hive> from mytable insert overwrite table tb_out3 select id,name where 
age=23 insert into table tb_out4 select gender,avg(age) group by gender; 

# 以 覆盖 方式 向 tb_out3 表 导 入 数据 ， 以 追加 方式 向 tb_out4 表 导 入 数据 
hive>select * from tb_out3; # 验 证 tb_out3 表 数 据 发 生 改变 
hive>select * from tb_out4; 


hive> select * from tb_out3; 

OK 

9 xs9 

Time taken: 0.115 seconds, Fetched: 1 row(s) 
hive> select * from tb_out4; 

OK 

NULL NULL 

female 21.8 

male 20.8 

Time taken: 0.106 seconds, Fetched: 3 row(8s) 


5. 将 select 查询 结果 写 入 文件 


(1) 写 入 本 地 文件 系统 
任务 : 将 select 查询 结果 导出 到 本 地 /tmp/exporttest/ 目 录 。 
关键 操作 步骤 及 命令 结果 ; 


hive>insert overwrite local directory ‘/tmp/exporttest/ select * from mytable 
where gender='male'; # 将 查询 结果 写 入 本 地 /tmp/exporttest/ 目 录 
hive>quit; # 退 出 Hive 

[root@client hive]# II /tmp/exporttest/ # 验 证 输出 

[root@client hive]# cat /tmp/exporttest/000000_0 # 验 证 写 入 本 地 文件 成 功 


[root@client hive]# 11 /tmp/exporttest/ 

total 4 

—rw-r--r-- 1 root root 72 Aug 11 14:41 000000 0 
[root@client hive]# cat /tmp/exporttest/000000 0 
2xs2male21 

4xs4male20 

6xs6male22 

7xs7male21 

10xs10male20 


在 将 select 查询 结果 导出 到 本 地 文件 系统 时 , 注意 导出 路 径 为 文件 
夹 路 径 〈 如 果 指 定 的 文件 夹 不 存在 ， 则 系统 先 建立 该 文件 夹 )， 不 必 指 
定 文件 名 。 执行 语句 后 , 会 在 指定 的 本 地 文件 夹 中 生成 一 个 结果 集 数 据 
文件 000000 0。 

(2) 写 入 分 布 式 文件 系统 HDFS 

任务 : 将 select 查询 结果 导出 到 HDFS 的 /tmp/outtest/ 目 录 。 

关键 操作 步骤 及 命令 结果 : 


hive> insert overwrite directory ‘/tmp/outtest/" 

row format delimited fields terminated by '\t' select * from mytable 
where gender='female'; # 将 查询 结果 写 入 HDFS 的 /tmp/outtest/ 目 录 
hive> dfs -Is /tmp/outtest/; 。 # 查 看 数据 仓库 目录 

hive> dfs -cat /tmp/outtest/000000_0; # 查 看 存储 在 HDFS 的 文件 


hive> dfs -1s /tmp/outtest/; 

Found 1 items 

-rwxrwxr-x 3 root supergroup 80 2017-08-11 14:45 /tmp/outtest/000000_0 
hive> dfs -cat /tmp/outtest/000000_0; 

1 xs1 female 21 

3 xs3 female 22 

5 xs5 female 21 

8 xs female 22 

9 xs9 female 23 


与 导出 到 本 地 文件 系统 一 样 ， 该 导出 路 径 为 文件 夹 路 径 ， 不 必 指 定 文 
件 名 。 执 行 命令 后 ， 会 在 HDFS 的 目录 /tmp/outtest" 下 生成 一 个 000000 0 
结果 集 数 据 文 件 。 

以 上 是 把 Hive 查询 结果 写 入 单 文 件 ， 即 一 个 文件 中 ， 还 可 以 将 查 
询 结果 写 入 多 个 文件 中 。 多 文件 写 入 实现 用 一 条 语句 在 多 个 文件 中 写 入 
数据 ， 只 需要 扫描 一 遍 元 数据 即 可 完成 在 多 个 文件 中 的 插入 操作 ,效率 
很 高 。 

任务 : 用 一 条 命令 实现 将 mytable 表 中 的 gender='male' 数 据 导入 本 
地 '/tmp/exporttest1/' 目 录 ， 同 时 将 mytable 表 中 的 gender='female' 的 数据 
导入 HDFS 的 '/tmp/outtest1/' 目 录 。 

关键 操作 步骤 及 命令 结果 : 


hive>from mytable insert overwrite local directory ‘/tmp/exporttest1/" 
Select * where gender='male' 

insert overwrite directory '/tmp/louttest1/' 

row format delimited fields terminated by 'Vt' 

select * where gender='female'; # 导 入 数据 到 两 个 文件 

hive> dfs -Isr /tmp; # 查 看 数据 仓库 目录 

hive> dfs -cat /tmplouttest1/000000_0; # 验 证 数据 成 功 导入 到 本 地 文件 


drwxrwxr-x - root supergroup 0 2017-08-11 14:45 /tmp/outtest 
-rwxrwxr-x 3 root supergroup 80 2017-08-11 14:45 /tmp/outtest/000000_0 
drwxrwxr-x - root supergroup 0 2017-08-11 14:47 /tmp/outtest1 
-rwxrwxr-x 3 root supergroup 80 2017-08-11 14:47 /tmp/outtest1/000000_0 
hive> dfs -cat /tmp/outtest1/000000_0; 

1 xs1 female 21 

3 xs3 female 22 

5 xs5 female 21 

8 xs8 female 22 

9 xs9 female 23 


hive>quit; 
[root@client hive]# Il /tmp; 
[root@client hive]# cat /tmp/exporttest1/000000_0 


# 验 证 数据 成 功 导入 到 HDFS 目录 

[root@master hive]# cat /tmp/exporttest1/000000_0 
2 xs2 male 21 

4 X34 male 20 

6 xs6 male 22 

ki xs7 male 21 

10 xs10 male 20 


4.6 Hive 操作 实例 


任务 : 在 本 地 文件 系统 建立 文件 “/home/membertxt”， 文 件 内容 如 
下 (数据 之 间 用 Tab 键 分 隔 )。 


201701 xx 0 21 

201702 yy 1 22 

201703 ZZ 1 22 

201704 aa 0 22 

201705 bb 1 21 

201706 bb 1 22 
启动 Hive 完成 如 下 任务 : 


(1) 新 建 member 表 。 

(2) 将 本 地 文件 “/home/member.txt” 导 入 member 表 中 。 
(3) 查询 member 表 中 所 有 记录 。 

(4) 查询 member 表 中 男 同 学 (性 别 值 为 1) 数据 。 

(5) 查询 member 表 中 22 岁 男 同 学 数据 。 

(6) 统计 member 表 中 男 同学 和 女 同学 (性 别 值 为 0) 的 人 数 。 
(7) 删除 member 表 。 

关键 操作 步 又 : 

所 有 操作 在 client 上 以 root 用 户 身份 执行 。 

(1) 启动 Hive 后 显示 所 有 Hive 表 。 

[root@client ~]# cd /usr/cstor/hive 


[root@client hive]# bin/hive 
hive> show tables; 


(2) 新 建 member 表 。 


hive> create table member(id intiname string,gender tinyint,age tinyint)row 
format delimited fields terminated by '\t'; 
hive>show tables; 


(3) 将 本 地 文件 /home/member.txt' 中 的 数据 导入 member 表 。 


hive>load data local inpath '/home/member.txt' overwrite into table 
member; 


(4) 查询 member 表 中 所 有 记录 。 
hive>select * from member; 

(5) 查询 member 表 中 男 同学 数据 。 
hive>select * from member where gender=1; 

(6) 查询 member 表 中 22 岁 男 同 学 数据 。 
hive>select* from member where gender=1 and age=22; 
(7) 统计 member 表 中 男 同 学 和 女 同 学 的 人 数 。 
hive>select gender,count(*) from member group by gender; 

(8) 删除 member 表 。 
hive>drop table member; 
(9) 退出 Hive。 


hive>quit; 


实验 3 Hive 实验 

实验 目的 

本 实验 的 目的 如 下 : 

口 理解 Hive 体系 架构 。 

O 掌握 Hive 内 嵌 模 式 部 署 。 

口 掌握 Hive Shell 常用 命令 的 使 用 。 
O 熟悉 Hive £ DDL 操作 和 DML 操作 。 
,实验 要 求 


本 实验 的 要 求 如 下 : 
O ŽA Hive AKAH. 





O 能 够 将 Hive 数据 存储 在 HDFS 上 。 
O 进入 Hive Shell, £ A, Hive 的 常见 DDL 操作 和 DML 操作。 


_ 实 验 步骤 


本 实验 要 部 署 Hive， 由 于 Hive 依赖 于 Hadoop， 所 以 首先 要 部 署 
Hadoop 集群 。 步 骤 如 下 : 

(1) 为 集群 中 所 有 机 器 添加 域名 映射 ， 配 置 ssh 免 密 登 录 ， 具 体 
步骤 请 参考 2.2 节 。 

(2) 部 署 Hadoop 2.7.3 并 启动 ， 具 体 步骤 请 参考 2.2 节 。 

(3) 内 嵌 模 式 安装 hive-2.1.1 版 本 ， 具 体 步骤 请 参考 4.2.2 节 。 

(4) 启动 Hive Shell， 练 习 以 下 Hive 基本 操作 : 

@ 创建 表 tb_pokes， 包 含 两 列 ， 第 一 列 列 名 foo， 数 据 类 型 int, 
第 二 列 列 名 bar， 数 据 类 型 string。 





hive> create table tb_pokes (foo int, bar string); 


@ 创建 表 tb_invites, 包含 两 个 实体 列 (foo int, bar string) 和 一 个 ( 虚 
拟 ) 分 区 字段 (ds string) 。 


hive> create table tb_invites (foo int, bar string) partitioned by (ds string); 
© 显示 所 有 的 表 。 

hive> show tables; 

@ 显示 以 s 结尾 的 表 。 

hive> show tables '.*s'; 

© 显示 tb_invites 表 列 。 

hive> desc tb_invites; 

© 修改 表 tb_ pokes 名 称 为 tb_events。 

hive> alter table tb_pokes rename to tb_events; 

@ 在 表 tb_events 中 新 增 列 ( 列 名 new_col， 数 据 类 型 int )。 
hive> alter table tb_events add columns (new_col int); 


ÆR tb_invites 中 新 增 列 ( 列 名 new_col2， 数 据 类 型 int )， 同 时 
增加 注释 “a comment”, 


hive> alter table tb_invites add columns (new_col2 int comment 'a 
comment'); 


@ 修改 tb_invites 表 中 所 有 列 名 ( foo 修改 为 t foo,bar 修 改 为 tbar， 
new_col2 修改 为 t_baz )。 


hive> alter table tb_invites replace columns (t_foo int, t_bar string, t_baz 
int comment 't_baz replaces new_col2'); 


删除 tb invites 表 的 tbar 和 tbaz 两 列 。 


hive> alter table tb_invites 
replace columns (t_foo int comment 'only keep the first column'); 


D 删除 tb_events 表 。 


hive> drop table tb_events; 
Q 查看 Hive 数据 库 ， 并 切换 default 数据 库 为 当前 数据 库 。 


hive> show databases; 
hive> use default; 


O 创建 分 区 表 tb_parthive， 包 含 两 个 实体 列 (name string, price 
string) 和 一 个 分 区 字段 year (year string)。 


hive> create table tb_parthive (name string, price string) 
partitioned by (year string) row format delimited fields terminated by "Vt'; 


@ 查看 tb parthive 66 K 249. 
hive> desc tb_parthive; 
@ 在 表 tb_parthive 中 创建 两 个 分 区 year='2014' 和 year='2015'。 


hive> alter table tb_parthive add partition(year='2014'); 
hive> alter table tb_parthive add partition(year='2015'); 


@ 查看 tb parthive 的 表 分 区 。 
hive> show partitions tb_parthive; 
M 将 本 地 文件 /home/parthive.txt 中 数据 导入 year=-'2015' 分 区 。 


hive> load data local inpath ,home/parthive.txt into table tb_parthive 
partition(year='2015'); 


O 查询 分 区 数据 。 


hive> select * from tb_parthive t where t.year='2015'; 
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O 统计 year='2015' 分 区 中 记录 个 数 。 


hive> select count(*) from tb_parthive where year='2015'; 


习题 4 


简 述 Hive 的 工作 原理 。 

. 简 述 Hive 的 功能 、 作 用 及 其 体系 架构 。 
简 述 Hive 的 三 种 部 署 方式 。 

简 述 Hive 的 接口 。 

. 简 述 Hive 的 数据 模型 。 
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内 存 大 数据 计算 框架 Spark 


Spark 是 美国 加 州 大 学 伯克利 分 校 的 AMP 实验 室 在 2010 年 发 布 的 
一 个 快速 、 通 用 的 开源 大 数据 处 理 引 擎 ， 和 Hadoop 的 MapReduce 计算 
框架 类 似 。 相 较 于 MapReduce，Spark 由 于 具有 可 伸缩 、 基 于 内 存 计算 
等 特性 , 在 进行 数据 批 处 理 时 处 理 效 率 更 高 、 速 度 更 快 , HIA Hadoop 
数据 格式 ， 所 以 Spark 在 推出 不 久 便 受到 了 欢迎 ， 成 为 继 Hadoop 
MapReduce 之 后 新 的 、 最 具 影 响 力 的 大 数据 处 理 框架 之 一 。 

本 章 对 Spark 进行 了 较为 系统 全 面 的 介绍 ， 内 容 包 括 Spark 的 体系 
架构 与 基本 原理 ，Spark 的 部 署 方法 : 单 节点 部 署 、 集 群 部 署 、 配 置 参 
数 及 方法 、 弹 性 数据 集 的 原理 及 操作 、Spark Shell 的 基本 操作 等 。 通过 
本 章 的 学 习 和 实验 可 以 熟悉 Spark 的 规划 、 部 署 、 配 置 、 管 理 、 操 作 使 
用 的 全 过 程 。 


5.1 Spark 简介 
5.1.1 Spark 概览 


Spark 是 基于 内 存 计算 的 大 数据 并 行 计算 框架 ， 和 前 面 章 节 中 介绍 
的 Hadoop MapReduce 框架 一 样 允 许 用 户 将 其 部 署 在 大 量 廉价 硬件 之 
E, 构成 集群 。MapReduce 在 处 理 复 杂 的 数据 处 理 任 务 时 存在 着 严重 的 
性 能 问题 ， 而 Spark 作为 MapReduce 的 替代 方案 ， 提 供 了 较 好 的 数据 
处 理性 能 。 由 于 兼容 Hadoop 的 HDFS、HBase、Hive 等 分 布 式 存储 系 
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统 , Spark 可 以 融入 Hadoop 生态 系统 , 并 弥补 MapReduce 的 不 足 。Spark 
具有 以 下 特点 。 


1. 高 效 、 高 性 能 的 数据 批 处 理 


使 用 MapReduce 进行 数据 批 处 理 时 ，MapReduce 作业 需要 读 取 
HDFS 文件 作为 数据 输入 ， 而 输出 的 结果 也 要 存储 到 HDFS 上 。 若 一 次 
数据 处 理 需 要 运行 多 个 MapReduce 作业 ， 其 中 间 结 果 通过 HDFS 保存 
与 传递 ， 需 要 有 多 次 HDFS 读 写 操作 , 会 产生 不 小 的 磁盘 读 写 开销 。 这 
样 整个 数据 处 理 时 间 较 长 , 效率 较 低 。 而 使 用 Spark 进行 数据 批 处 理 时 ， 
原先 需要 多 个 MapReduce 作业 的 数据 处 理 现在 只 需要 一 个 Spark 作业 ， 
缩短 了 作业 的 申请 、 分 配 过 程 。 同 时 作业 执行 时 的 中 间 结 果 可 保存 于 内 
存 中 , 减少 了 HDFS 的 读 写 次 数 ， 从 而 减少 了 磁盘 读 写 开销 ， 缩 短 了 数 
据 处 理 时 间 ， 提 高 了 效率 。 


2. 灵活 、 易 用 的 编程 模型 


相 较 于 MapReduce 编程 模型 ，Spark 提供 了 更 为 灵活 的 DAG 编程 
模型 。DAG 编程 模型 不 仅 包含 了 map, reduce 接口 ， 还 增加 了 filter, 
flatMap, union 等 操作 接口 ， 使 得 编写 Spark 程序 更 为 方便 。 


3. 丰富、 灵活 的 编程 接口 


Spark 提供 了 编程 语言 Java、Scala、Python、R 的 API， 以 及 数据 
库 操 作 语 言 SQL 的 支持 ， 方 便 开 发 者 编写 Spark 程序 。 同 时 还 提供 了 
Spark Shell 以 支持 用 户 进行 交互 式 编程 。 


4. 多 种 类 型 的 数据 处 理 支持 


Spark 不 仅 支持 数据 批 处 理 ， 还 支持 流 式 数 据 处 理 、 复 杂 分 析 《〈 包 
括 机 器 学 习 、 图 计算 )、 交 互 式 数据 查询 〈 包 括 SQL )。 


5. 多 数据 源 支持 


Spark 可 以 独立 运行 ， 也 可 以 运行 于 Hadoop Yar 集群 管理 器 ， 兼 
容 Hadoop 已 有 的 各 种 数据 类 型 ， 支 持 多 种 数据 源 ， 如 HDFS、Hive、 
HBase、Parquet 等 。 


5.1.2 Spark 生态 系统 BDAS 


Spark 整个 生态 系统 称 为 伯克利 数据 分 析 栈 BDAS (Berkeley Data 
Analytics Stack)， 如 图 5-1 所 示 ， 划 分 为 以 下 4 个 层次 。 
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5-1 Spark 生态 系统 BDAS 


1. 资源 虚拟 化 

资源 虚拟 化 层 实现 资源 管理 ， 包 括 分 布 式 资源 管理 框架 Mesos 和 
Hadoop 的 Yarn 资源 管理 器 。 

2. 存储 

存储 层 实现 数据 存储 管理 , 包括 Hadoop 的 分 布 式 文件 系统 HDFS、 
亚马逊 云 平台 AWS 的 S3 云 存 储 、 内 存 分 布 式 文件 系统 Tachyon 等 。 

3. 处 理 引 擎 

处 理 引 擎 层 主要 由 Spark Core 构成 。 

4. 访问 与 接口 

访问 与 接口 层 包含 基于 Spark 基础 平台 的 一 些 扩 展 , 提供 了 适用 不 
同 数据 处 理 类 型 的 系统 与 接口 。 包括 流 式 计算 框架 Spark Streaming、 结 
构 化 数据 SQL 查询 引擎 Spark SQL、 机 器 学 习 系 统 MLBase、 机 器 学 习 
库 Mllib 和 并 行 图 计算 框架 GraphX 等 。 

生态 系统 中 的 子 项 目 有 的 由 伯克利 大 学 AMP 实验 室 发 起 开发 ， 有 


的 由 Spark 社区 开发 ， 也 有 来 自 第 三 方 的 系统 ， 如 Hadoop 的 Yarn 和 
HDFS 。 


5.1.3 Spark 架构 与 原理 


Spark 集群 中 的 Spark 应 用 程序 运行 在 一 组 进程 上 ， 这 些 进 程 分 布 
在 Worker 节点 上 并 被 一 个 称 为 驱动 程序 (Driver Program) 的 进程 协调 
管理 ， 如 图 5-2 所 示 。 
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5-2 Spark 应 用 程序 架构 


一 个 Spark 应 用 由 一 个 驱动 程序 (Driver Program) 和 多 个 执行 器 
(Executor) 构成 ， 驱 动 程序 (Driver Program) 中 的 SparkContext 对 象 
负责 协调 管理 多 个 执行 器 〈Executor)， 而 一 个 执行 器 (Executor) 可 以 
执行 多 个 任务 (Task)， 并 可 以 将 数据 保存 在 缓存 中 。 每 个 Spark 应 用 
所 拥有 的 执行 器 (Executor) 进 程 是 独立 的 ,这 些 执 行 器 进程 会 随 着 Spark 
应 用 的 运行 而 运行 ， 并 且 通 过 多 线程 的 方式 运行 任务 (Task). 

Spark 应 用 程序 的 执行 流程 如 下 : 首先 当 一 个 应 用 提交 后 ， 系 统 启 
动 一 个 驱动 程序 (Driver Program) 并 创建 一 个 SparkContext 对 象 。 然 
后 SparkContext 对 象 连接 集群 管理 器 (不 同 模式 集群 的 管理 器 不 同 ， 如 
Standalone 模式 、Yarn 模式 、Mesos 模式 ) 分 配 资源 ， 连 接 之 后 分 配 到 
多 个 用 来 计算 和 存储 数据 的 执行 器 (Executor)。 接 着 SparkContext 对 
象 将 用 户 提 交 的 程序 代码 (JAR 或 Python 文件 ) 发 送 给 执行 器 
(Executor)， 最 后 在 执行 器 (Executor) 上 运行 从 SparkContext 上 发 送 
来 的 任务 (Task)。 

使 用 分 布 式 内 存 存 放 待 处 理 数据 和 优化 数据 处 理 过 程 是 Spark 数据 
处 理 效率 得 到 提高 的 主要 因素 。 在 Spark 中 对 分 布 式 内 存 数据 进行 了 抽 
象 ， 称 为 弹性 分 布 式 数据 集 (RDD). RDD 是 Spark 中 核心 的 数据 结构 ， 
所 有 数据 处 理 操 作 都 围绕 RDD 进行 。 数 据 操 作 即 是 对 RDD 的 转换 处 
理 ， 把 一 个 RDD 转换 为 另 一 个 新 的 RDD。 一 个 Spark 应 用 的 数据 处 理 
过 程 即 是 多 个 RDD 的 转换 过 程 ，Spark 对 数据 处 理 过 程 提出 了 优化 方 
法 : 首先 把 数据 处 理 过 程 中 使 用 到 的 RDD 和 RDD 之 间 的 转换 构成 有 
向 无 环 图 (DAG); 其 次 根据 RDD 之 间 的 转换 类 型 划分 阶段 (Stage)， 
同一 阶段 (Stage) 中 的 RDD 转换 操作 在 不 同 的 节点 上 可 以 并 行 执行 ; 
最 后 执行 划分 好 阶段 的 DAG 图 。 


有 向 无 环 图 的 阶段 划分 如 图 5-3 所 示 ， 图 中 有 名 为 A、B、C、D、 
E. F 和 G 的 RDD, 并 标明 了 RDD 之 间 的 转换 关系 , W RDD A 到 RDD 
B 为 groupBy 操作 、RDD C 到 RDD D 为 map 操作 等 ， 这 些 RDD 根据 
它们 之 间 的 转换 关系 构成 了 一 个 有 向 无 环 图 (DAG). RDD 中 的 小 方块 
代表 此 RDD 分 布 到 不 同 的 节点 上 , 如 RDD A 分 布 到 3 个 节点 上 、RDD 
C 分 布 到 2 个 节点 上 等 。 虚 线 框 出 的 即 为 阶段 〈Stage)， 图 中 共 标 识 了 
3 个 阶段 : Stagel 、Stage2 和 Stage3 。 阶 段 的 划分 依据 为 RDD 的 转换 是 
否 能 合并 与 并 行进 行 , 如 某 个 节点 上 从 RDD C 到 RDDD 的 转换 和 RDD 
D 到 RDD F 的 转换 可 以 合并 执行 ， 不 需要 等 待 其 他 节点 的 转换 结果 ; 
而 RDD A 到 RDD B 的 转换 需要 涉及 所 有 相关 节点 , 故 被 划分 到 两 个 阶 
段 。 最 后 依次 执行 各 阶段 算出 RDD G. 





5-3 ”有 向 无 环 图 的 阶段 划分 


5.2 Spark 部署 
5.2.1 准备 工作 


选择 部 署 Spark 在 Linux 操作 系统 上 ， 可 以 使 用 物理 机 、 虚 拟 机 或 
者 云 服 务 来 部 署 。Linux 的 版 本 可 以 选择 Centos、Ubuntu 等 流行 版 本 。 
初学 者 学 习 体 验 Spark 可 以 先 选择 单 节点 部 署 ， 而 要 使 用 Spark 进行 大 
数据 处 理 或 者 大 规模 计算 则 需要 选择 集群 部 署 。 单 节点 部 署 只 需 准 备 一 
台 Linux 机 器 ， 而 集群 部 署 则 需要 准备 多 台 Linux 机 器 ， 并 且 各 台 机 器 
能 通过 网 络 互 连 。 

1. 安装 JDK 


Spark 运行 在 JVM E, 要 求 Java 7 及 以 上 版 本 。 在 实际 的 部 署 中 会 
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和 Hadoop 部 署 在 一 起 , 可 以 选择 JDK 1.7 或 JDK 1.8 安装 。 在 2.2 节 中 
已 介绍 了 JDK 的 安装 步 又， 此 处 不 再 獒 述 。 


2. 下 载 Spark 


Spark 的 官方 下 载 地 址 为 : http://spark.apache.org/downloads.html > 
打开 后 如 图 5-4 所 示 。 
Download Apache Spark™ 
1. Choose a Spark release: 2.1.0 (Dec 28 2016) ËJ 
2. Choose a package type: Pre-built for Hadoop 2.7 and later B 
3. Choose a download type: Direct pownoad E 
4. Download Spark: spark-2.1.0-bin-hadoop2.7 tgz 
5. Verify this release using the 2.1.0 signatures and checksums and project release KEYS. 


Note: Starting version 2.0, Spark is built with Scala 2.11 by default. Scala 2.10 users should download the Spark 
source package and build with Scala 2.10 support. 


5-4 Spark 下 载 页 面 


下 载 过 程 分 5 步 : 

(1) 选择 Spark 版 本 ， 在 此 选择 2.1.0。 

(2) 选择 包 类 型 , 在 此 选择 “Pre-built for Hadoop 2.7 and later”( 编 
译 好 的 包 )， 其 适用 于 Hadoop 2.7 以 及 更 高 版 本 。Spark 在 做 大 数据 处 
理 或 调度 管理 时 可 以 使 用 Hadoop 的 组 件 ， 需 要 和 Hadoop 混合 部 署 ， 
这 样 用 户 需 要 选择 对 应 Hadoop 版 本 的 预 编译 包 。 

(3) 选择 下 载 方式 ， 在 此 选择 直接 下 载 。 

(4) 点 击 下 载 spark-2.1.0-bin-hadoop2.7.tgz 安装 包 。 

(5) 校 验 下 载 的 文件 是 否 正确 。 

下 载 好 的 文件 为 spark-2.1.0-bin-hadoop2.7.tgz, 这 是 一 个 压缩 文件 。 
文件 名 中 显示 Spark 的 版 本 为 2.1.0， 对 应 的 Hadoop 版 本 为 2.7。 这 里 
只 显示 了 Hadoop 的 主 版 本 号 和 次 版 本 号 ， 说 明 可 以 支持 2.7.1、2.7.2、 
2.7.3 等 版 本 。 


5.2.2 Spark 单 节点 部 署 


单 节点 部 署 是 指 在 一 台电 脑 上 部 署 Spark， 这 是 最 简单 的 Spark 部 
署 方式 ， 一 般 用 于 学 习 或 体验 。 单 节点 部 署 非 常 简单 ， 步 又 如 下 : 

(1) 选择 一 台 Linux 机 器 ， 安 装 好 JDK. 

(2) 下 载 Spark 包 文件 spark-2.1.0-bin-hadoop2.7.tgz 后 , 解压 缩 文 
件 。 具 体 命令 如 下 : 





tar xvf spark-2.1.0-bin-hadoop2.7.tgz 

cd spark-2.1.0-bin-hadoop2.7 

解压 后 Spark 的 相关 文件 都 在 spark-2.1.0-bin-hadoop2.7 目录 下 面 。 
(3) 运行 测试 程序 : 

./bin/run-example SparkPi 10 2>/dev/null 


此 命令 是 运行 Spark 示例 程序 SparkPi， 用 来 计算 圆周 率 。 运 行 结 
RJ: 
Pi is roughly 3.138939138939139 


至 此 ，Spark 单 节点 部 署 成 功 。 
5.2.3 Spark 集群 部 署 


Spark 集群 部 署 是 指 把 Spark 部 署 到 多 台 网 络 互通 的 机 器 上 ， 构 成 
分 布 式 系统 。 集 群 部 署 的 好 处 是 可 以 利用 多 台 机 器 的 计算 、 内 存 、 磁 盘 
资源 ， 有 效 地 运行 大 数据 处 理 程序 ， 能够 处 理 的 数据 量 或 计算 量 远 远大 
于 使 用 单 台 电脑 部 署 的 Spark。 同 时 集群 还 提供 了 资源 调度 、 高 可 用 性 、 
高 可 靠 性 等 功能 ， 能 够 使 Spark 程序 的 运行 高 效 、 稳 定 、 可 靠 。 

Spark 集群 按照 所 使 用 的 集群 管理 器 可 以 分 为 三 种 模式 : Standalone、 
Spark on Yarn、Spark on Mesos。 其 中 Standalone 模式 使 用 Spark 自 带 的 
集群 管理 器 , 可 以 方便 快速 地 搭建 集群 ; Spark on Yarn 模式 使 用 Hadoop 
的 资源 管理 器 Yarn 管理 集群 ，Yarn 支持 资源 的 动态 分 配 ， 并 可 以 统一 
管理 Hadoop 与 Spark 集群 ，Spark on Mesos 模式 则 使 用 Apache Mesos 
管理 集群 , Apache Mesos 是 一 种 通用 的 集群 管理 器 , 也 支持 运行 Hadoop 
MapReduce. 

我 们 可 以 先 从 搭建 Standalone 模式 集群 开始 ， 熟 悉 部 署 方法 ， 再 拱 
建 Hadoop on Yarn 模式 集群 。 


1. 搭建 Standalone 模式 集群 


搭建 集群 之 前 首先 要 规划 好 集群 的 规模 及 角色 分 配 。Spark 集群 中 
的 机 器 角色 分 为 : Master 和 Slave。 通 常 把 部 署 了 Master 角色 的 机 器 称 
为 Master 节点 ， 部 署 了 Slave 角色 的 机 器 称 为 Slave 节点 。Master 节点 
负责 调度 管理 ,而 Slave 节点 负责 任务 计算 及 数据 处 理 。 在 集群 中 Master 
节点 与 Slave 节点 的 部 署 关 系 如 图 5-5 所 示 。 
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5-5 Master 5 Slave 的 部 署 关 系 
选择 1 个 Master 节点 、2 个 Slave 节点 ， 具 体 规划 如 表 5-1 所 示 。 
表 5-1 Standalone 集群 规划 


集群 角色 IP 地 址 
Master | doudl | 192.168.100.10 
Slave 192.168.100.11 
Slave 192.168.100.12 





集群 规划 完成 后 ， 开 始 搭建 集群 ， 具 体 步 骤 如 下 : 

(1) 3 台 Linux 机 器 ， 分 别 配 置 好 机 器 名 和 IP 地 址 ， 并 确保 每 台 
机 器 间 的 网 络 能 够 相互 连通 .默认 配置 下 spark 会 占用 8080.8081.6066. 
7077 等 端口 ， 若 防火 墙 开 启 ， 这 些 端口 可 能 无 法 连通 ， 所 以 需要 停 掉 
每 台 机 器 的 防火 墙 。 不 同 版 本 的 Linux 系统 关闭 防火 墙 的 命令 不 同 ,此 
处 不 再 详 述 。 

(2) 为 每 台 机 器 创建 一 个 用 户 〈 本 例 中 使 用 dtadmin)， 此 用 户 具 
有 管理 员 权限 ， 后 续 登 录 每 台 机 器 均 使 用 此 用 户 。 

(3) 配置 每 台 机 器 的 hosts 文件 。 使 用 vi 编辑 文件 ， 命 令 如 下 : 


sudo vi /etc/hosts 


在 hosts 文件 最 后 加 入 : 


192.168.100.10 cloud1 
192.168.100.11 cloud2 
192.168.100.12 cloud3 


(4) 为 每 台 机 器 安装 JDK。 
(5) 配置 ssh 免 密码 登录 。 登 录 到 cloudl1， 配 置 免 密码 登录 ， 使 


得 从 cloudl 到 cloud2 和 cloud3 的 ssh 登录 无 须 密码 。 具 体 方法 请 参考 
2.2 节 中 介绍 的 免 密码 登录 方法 。 


验证 免 密 码 登录 , 在 cloud 上 分 别 执行 以 下 两 条 命令 , # ssh 登录 
无 须 密码 则 免 密 码 登 录 配 置 成 功 。 


ssh cloud2 
ssh cloud3 


(6) 把 准备 工作 时 下 载 好 的 包 文 件 spark-2.1.0-bin-hadoop2.7.tgz 
分 别 放 到 每 台 机 器 上 (从 Windows 机 器 上 传 文件 到 Linux 机 器 可 以 使 
用 工具 Winscp)， 并 且 放 到 相同 的 路 径 下 (如 都 放 到 /home/dtadmin)， 
通过 以 下 命令 解压 缩 : 
tar xvf spark-2.1.0-bin-hadoop2.7.tgz 
cd spark-2.1.0-bin-hadoop2.7 
最 终 每 台 机 器 的 Spark 目录 都 位 于 : 
/home/dtadmin/spark-2.1.0-bin-hadoop2.7 
(7) 配置 Master 节点 上 的 slaves 文件 。 在 Master 节点 上 进入 spark 
目录 /home/dtadmin/spark-2.1.0-bin-hadoop2.7， 执 行 以 下 命令 : 





cd conf 
cp slaves.template slaves 


至 此 在 spark-2.1.0-bin-hadoop2.7/conf 目录 下 新 建 了 名 为 slaves 的 
文件 ， 该 文件 从 slaves.template 文件 复制 而 来 。 
使 用 文本 编辑 工具 vi 编辑 文件 slaves， 添 加 cloud2 和 cloud3 到 文 
件 中 ， 最 终 效果 如 图 5-6 所 示 。 
# A Spark Worker will be started on each of the machines 
listed below. 
cloud2 
cloud3 


图 5-6 编辑 slaves 文件 
(8) 在 Master 节点 (机 器 名 为 cloud1) 上 执行 启动 脚本 。 


cd ~/spark-2.1.0-bin-hadoop2.7 
./sbin/start-all.sh 


(9) 验证 是 否 安装 成 功 。 在 每 台 机 器 上 运行 jps 命令 查看 Java 进 
程 ，jps 用 来 查看 所 有 正在 运行 的 Java 程序 信息 。 
在 Master 节点 cloudl 上 运行 jps， 结 果 如 图 5-7 所 示 。 
[dtadmin@cloudl1 spark-2.1.0-bin-hadoop2.7]$ jps 
2257 Master 
2431 Jps 


图 5-7 在 cloud1 上 运行 jps 命令 
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在 Slave 节点 cloud2 上 运行 jps， 结 果 如 图 5-8 所 示 。 


[dtadmin@cloud2 spark-2.1.0-bin-hadoop2.7]$ jps 
4738 Jps 
2219 Worker 


5-8 在 cloud2 上 运行 jps 命令 


在 Slave 节点 cloud3 上 运行 jps， 结 果 如 图 5-9 所 示 。 


[dtadmin@cloud3 spark-2.1.0-bin-hadoop2.7]$ jps 
2212 Worker 
2552 Jps 


5-9 在 cloud3 上 运行 jps 命令 


可 以 看 出 在 Master 节点 上 运行 了 一 个 名 为 Master 的 Java 程序 , 而 
在 Worker 节点 上 分 别 运行 了 一 个 名 为 Worker 的 Java 程序 。 至 此 Spark 
进程 在 Master 节点 和 Slave 节点 上 都 已 启动 成 功 。 

在 Master 节点 上 的 Web 界面 中 也 可 以 看 到 集群 的 状态 ，Master 节 
点 的 Web 界面 默认 URL 为 http://<masterAddress>:8080， 访 问 Master 
节点 cloudl 的 Web 界面 ， 效 果 如 图 5-10 所 示 。 


C http://cloud1:8080 


SPaik: ,,。 Spark Master at spark://cloud1:7077 


URL: spark://cloud1:7077 

REST URL: spark://cloud1:6066 (cluster mode) 
Alive Workers: 2 

Cores in use: 2 Total, 0 Used 

Memory in use: 2.0 GB Total, 0.0 B Used 
Applications: 0 Running, 0 Completed 
Drivers: 0 Running, 0 Completed 

Status: ALIVE 


图 5-10 Master 节点 Web 界面 


“Status: ALIVE ”代表 集 群 处 于 正常 状态 ,“Alive Workers: 2” 代 
表 有 两 个 Worker 可 用 。 
(10) 提交 测试 程序 。 通 常 使 用 spark-submit 脚本 提交 spark 应 用 
到 集群 运行 ， 此 脚本 提供 了 统一 的 接口 , 可 以 使 用 统一 的 方法 提交 应 用 
到 不 同类 型 的 集群 。 执 行 命令 如 下 : 
cd ~/spark-2.1.0-bin-hadoop2.7 
-bin/spark-submit N 
—class org.apache.spark.examples.SparkPi \ 


—master spark://cloud1:6066 \ 
—deploy-mode cluster ./examples/jars/spark-examples_2.11-2.1.0.jar 100 
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运行 结果 如 图 5-11 所 示 。 


Running Spark using the REST application submission proto 
col. 

17/08/04 22:43:21 : Submitting a request to launch an app 
lication in spark://cloud1:6066. 

17/08/04 22:43:23 : Submission successfully created as dr 
iver-20170804224322-0000. Polling submission state... 
17/08/04 22:43:23 : Submitting a request for the status o 
f submission driver-20170804224322-0000 in spark://cloudl 
:6066. 


17/08/04 22:43:23 : State of driver driver-20170804224322 
-0000 is now RUNNING. 

17/08/04 22:43:23 : Driver is running on worker worker-20 
170804224212-192.168.100.11-41091 at 192.168.100.11:41091 


17/08/04 22:43:23 : Server responded with CreateSubmissio 
nResponse: 


5-11 提交 测试 程序 至 Spark 集群 


在 最 后 显示 的 JSON 结构 中 "success" : true 代表 提交 成 功 。 和 单机 
模式 运行 测试 程序 不 同 的 是 ，spark-submit 脚本 提交 成 功 后 即 退 出 ， 并 
没有 把 最 终 的 运行 结果 显示 给 用 户 。 要 查询 运行 结果 需要 访问 Master 
节点 的 Web 界面 ， 如 图 5-12 所 示 。 


Completed Applications 


Memory per 

Application ID Name Cores Node Submitted Time User State Duration 
《app-20170318061154、 Spark 1 1024.0 MB 2017/03/18 dtadmin( FINISHED )12 s 
Q000 ~ |P 06:11:54 —— 
Completed Drivers 

Submitted 

Submission ID Time Worker _ State Cores Memory Main Class 

driver- Sat Mar 18 ,Worker- C. ( FINISHED)1 1024.0  orgapache.spark examples. SparkPi 
20170318061148- 06:11:48 í SI n > MB 

0000 EDT 2017\ 192.168.100.12- / 

`41016 


Æ 5-12 Master 节点 Web 界面 查看 程序 运行 


在 cloudl 的 Web 界面 最 后 有 两 个 表格 ， 分 别 为 完成 的 程序 和 完成 
的 Drivers, 这 里 编号 为 app-20170318061154-0000 的 应 用 即 是 用 户 提交 
的 测试 程序 , 对 应 的 状态 为 完成 。 而 编号 为 driver-20170318061148-0000 
的 driver 即 此 应 用 的 driver 程序 ,对 应 的 状态 也 为 完成 。 点 击 ^* Completed 
Drivers ”表格 中 Worker 列 中 的 Worker 编号 ， 跳 转 到 Worker 页 面 ， 如 
图 5-13 所 示 。 

TE “Finished Drivers” 表 格 中 点 击 Driver 编号 为 driver-20170318061148- 
0000 的 stdout 即 可 看 到 最 终 的 运行 结果 ， 如 图 5-14 所 示 。 

至 此 Spark Standalone 模式 集群 的 部 署 、 测 试 完成 。 可 以 看 出 集群 
部 署 要 比 单机 部 署 复杂 ， 在 实际 部 署 时 要 严格 按照 步骤 进行 。 
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spä 210 Spark Worker at 192.168.100.12:41016 


ID: worker-20170318041239-192 168 100.12-41016 
Master URL: spark://cloud1:7077 

Cores: 1 (0 Used) 

Memory: 1024.0 MB (0.0 B Used) 


Back to Master 


Running Executors (0) 


ExecutorID Cores State Memory Job Details Logs 


Finished Drivers (1) 


DriverlD Main Class State Cores Memory Logs Notes 
driver-20170318061148- org.apache.spark.examples.SparkPi FINISHED 1 1024.0 (Stdout) 
0000 MB stderr 


5-13 Worker 页 面 


spä 219 Stdout log page for driver-20170318061148-0000 


Back to Master 
Showing 33 Bytes: 0 - 33 of 33 
Top of Log 
Pi is roughly 3.1422299142229915 


Load New 


5-14 ”测试 程序 运行 结果 
2. 搭建 Spark on Yarn 模式 集群 


Spark on Yarn 集群 使 用 Hadoop Yarn 作为 集群 管理 器 , 需要 把 Spark 
和 Hadoop 部 署 在 一 起 。Spark 可 以 处 理 Hadoop HDFS 上 的 数据 ，Spark 
与 Hadoop 部 署 在 一 起 ，Spark 就 可 以 更 高 效 、 更 快捷 地 访问 HDFS。 

前 面 介 绍 了 Standalone 模式 集群 的 部 署 方法 ， 拱 建 Spark on Yarn 
模式 集群 只 需 在 Standalone 模式 集群 的 基础 上 ， 部 署 Hadoop 并 做 相应 
配置 。 在 搭建 之 前 需要 规划 好 Hadoop 的 机 器 角色 如 何 部 署 到 已 有 的 
Spark Standalone 模式 集群 上 。 把 HDFS 中 的 NameNode 放 到 Master 节 
AE, mi DataNode 放 到 Slave 节点 上 。 把 Yarn 中 的 ResourceManager 
放 到 Master 节点 上 。 具 体 规 划 如 表 5-2 所 示 。 


表 5-2 Spark on Yarn 模式 集群 规划 


机 器 名 Spark 角色 Hadoop 角色 IP 地 址 
NameNode 
cloud1 Master SecondaryNameNode | 192.168.100.10 





ResourceManager 





。 一 第 5 章 内 存 大 数 


续 表 





机 器 名 Spark 角色 Hadoop 角色 IP 地 址 


DataNode 
NodeManager 
DataNode 
NodeManager 


Spark on Yarn 模式 集群 可 以 在 已 搭建 好 的 Standalone 模式 集群 上 继 

续 搭建 ， 具 体 步骤 如 下 : 
(1) 在 三 台 机 器 上 部 署 Hadoop 集群 ， 只 需要 配置 Hadoop 的 HDFS 

和 Yarn 组 件 。 对 于 HDFS， 将 NameNode 和 SecondaryNameNode 部 署 
到 Master 节点 cloudl 上 ， 而 将 DataNode 部 署 到 Slave 节点 cloud2 和 
cloud3 上 。 对 于 Yarn， 将 ResourceManager 部 署 到 Master 节点 cloud1 
上 ， 而 将 NodeManager 部 署 到 Slave 节点 cloud2 和 cloud3 上 。 

Hadoop 的 部 署 方 法 参见 2.2 节 ， 此 处 不 再 详 述 。Hadoop 配置 文件 
core-site.xml, hdfs-site.xml, yarn-site.xml 和 slaves 文件 的 关键 配置 信 
息 如 图 5-15 一 图 5-18 所 示 ， 以 供 参考 。 


<configuration> 

<property> 
<name>hadoop.tmp.dir</name> 
<value>/home/dtadmin/hadooptmp</value> 
<description>A base for other temporary directories.</d 

escription> 

</property> 

<property> 

<name>fs.defaultFS</name> 

<value>hdfs://cloud1:9000</value> 

</property> 

<property> 
<name>io.file.buffer.size</name> 
<value>131072</value> 

</property> 

</configuration> 


5-15 配置 文件 core-site.xml 


<configuration> 
<property> 
<name>dfs.namenode .name .dir</name> 
<value>file:/home/dtadmin/hadoopdata/namenode</value> 
</property> 
<property> 
<name>dfs.datanode.data.dir</name> 
<value>file:/home/dtadmin/hadoopdata/datanode</value> 
</property> 
<property> 
<name>io.file.buffer.size</name> 
<value>131072</value> 
</property> 
<property> 
<name>dfs .namenode .handler .count</name> 
<value>100</value> 
</property> 
</configuration> 


图 5-16 配置 文件 hdfs-site .xml 














cloud2 Slave 192.168.100.11 








cloud3 Slave 192.168.100.12 
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<property> 
<name>yarn.resourcemanager.scheduler.address</name> 
<value>cloud1:8030</value> 
</property> 
<property> 
<name>yarn.resourcemanager.address</name> 
<value>cloud1:8032</value> 
</property> 
<property> 
<name>yarn.acl.enable</name> 
<value>false</value> 
</property> 
<property> 
<name>yarn.admin.acl</name> 
<value>*</value> 
</property> 
<property> 
<name>yarn.log-aggregation-enable</name> 
<value>false</value> 
</property> 
<property> 
<name>yarn.resourcemanager.webapp.address</name> 
<value>cloud1:8088</value> 
</property> 
<property> 
<name>yarn.resourcemanager.hostname</name> 
<value>cloud1</value> 
</property> 


5-17 配置 文件 yarn-site.xml 


cloud2 
cloud3 


5-18 配置 文件 slaves 


(2) 配置 每 台 机 器 的 spark-env.sh 文件 。 在 Spark 的 conf 目录 下 若 没 
有 spark-env.sh 文件 ， 则 需要 从 spark-env.sh.template 复制 ， 执 行 命令 如 下 : 


cd ~/spark-2.1.0-bin-hadoop2.7/conf 
cp spark-env.sh.template spark-env.sh 


编辑 spark-env.sh 文件 ， 加 入 配置 项 HADOOP_ CONF DIR, WE 
值 为 Hadoop 配置 文件 所 在 目录 ， 如 图 5-19 所 示 。 


# - HADOOP_CONF_DIR, to point Spark towards Hadoop confi 
guration files 

export HADOOP_CONF_DIR=/home/dtadmin/hadoop-2.7.3/etc/ha 
doop 


5-19 配置 spark-env.sh 的 HADOOP_CONF_DIR 选项 
G) 重启 Spark。 登 录 到 Master 节点 cloud1， 执 行 以 下 命令 : 


cd ~/spark-2.1.0-bin-hadoop2.7 
./sbin/stop-all.sh (停止 spark) 
/sbin/start-all.sh (启动 spark) 


(4) 验证 是 否 安 装 成 功 。 在 每 台 机 器 上 运行 jps 命令 查看 Java 进 
程 信息 。 
在 Master 节点 cloudl 上 运行 jps， 结 果 如 图 5-20 所 示 。 





[dtadminecloudl spark-2.1.0-bin-hadoop2.7]$ jps 
3329 Master 

2539 SecondaryNameNode 

2701 ResourceManager 

2254 NameNode 

3406 Jps 


5-20 Æ cloud1 上 运行 jps 命令 


Master 节点 cloudl 上 运行 了 Spark 的 Master 进程 、Hadoop HDFS 的 
NameNode 和 SecondaryNameNode 进程 、Hadoop Yarn 的 ResourceManager 
进程 。 

在 Slave 节点 cloud2 上 运行 jps， 结 果 如 图 5-21 所 示 。 

[dtadminecloud2 spark-2.1.0-bin-hadoop2.7]$ jps 
2593 Worker 

2169 DataNode 

2649 Jps 

2283 NodeManaqer 


5-21 在 cloud2 上 运行 jps 命令 
在 Slave 节点 cloud3 上 运行 jps， 结 果 如 图 5-22 所 示 。 


[dtadmin@cloud3 ~]$ jps 
2657 Jps 

2597 Worker 

2167 DataNode 

2281 NodeManager 


5-22 在 cloud3 上 运行 jps 命令 


Slave 节点 cloud2 和 cloud3 上 都 运行 了 Spark 的 Worker 进程 、 
Hadoop HDFS 的 DataNode 进程 和 Hadoop Yarn 的 NodeManager 进程 。 
至 此 Spark 集群 和 Hadoop 进程 都 已 经 启动 成 功 。 

(5) 提交 测试 程序 。 与 测试 Standalone 模式 集群 相同 ， 要 使 用 
spark-submit 脚本 提交 测试 程序 ， 但 脚本 参数 中 --master 指定 为 yarn， 
执行 命令 如 下 : 

./bin/spark-submit ` 

--class org.apache.spark.examples.SparkPi \ 

—master yarn \ 


--deploy-mode cluster À 
.lexamples/jars/spark-examples_2.11-2.1.0.jar 100 


输出 的 日 志 最 后 如 图 5-23 所 示 ，"final status: SUCCEEDED "说 明 
最 终 运 行 成 功 。 

在 Standalone 模式 集群 中 查看 提交 的 程序 运行 结果 需要 登录 Spark 
Master 节点 的 Web 界面 ， 而 在 Spark on Yarn 模式 集群 中 由 于 任务 管理 
已 交 给 Hadoop Yam 来 完成 ， 所 以 查看 程序 运行 结果 需要 登录 Hadoop 
的 ResourceManager 的 Web 界面 。ResourceManager 的 默认 URL 为 
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http://<ResourceManager Address>:8088 , 当前 URL 为 http://cloud1:8088， 
打开 页 面 如 图 5-24 所 示 。 


17/08/04 23:20:30 : Application report for application 1 
501903056153_0001 (state: FINISHED) 
17/08/04 23:20:30 : 

client token: N/A 

diagnostics: N/A 

ApplicationMaster host: 192.168.100.11 

ApplicationMaster RPC port: 0 

queue: default 

start time: 1501903171728 

final status; SUCCEEDED 

tracking URL: http://cloud1:8088/proxy/applicat 
ion_1501903056153_0001/ 

user: dtadmin 


5-23 spark-submit 脚本 输出 日 志 


OOP] All Applications 


Cluster Metrics 


Apps © Apps | Apps Apps — Containers Memory Memory Memory VCores VCores VCores | Active 
Submitted Pending Running Completed Running Used — Total Reseved Used Total Reserved Nodes 
1 0 0 1 0 oB 16GB OB 0 16 0 2 
Scheduler Metrics 
Scheduler Type Scheduling Resource Type Minimum Allocation 

Capacity Scheduler [MEMORY] <memory:1024, vCores:1> 
Show[20_» entries. 

D Lus PRR x Ai Queue StarTme FinishTime sie ° 


application 1490058549121 0001 diadmin org apache sparkexamples.SparkPi SPARK defaut TueMar Tue Mar FINISHED 


21 21 
14:19:31 11:20:47 
+0800 +0800 
2017 2017 

Showing 1 to 1 of 1 entries 


5-24 Hadoop ResourceManager 的 Web 界面 


ResourceManager 的 Web 界面 中 显示 有 一 个 状态 为 “FINISHED”、 


名 称 为 “org.apache.spark.examples.SparkPi” 的 应 用 程序 ， 单 击 其 ID 便 
显示 应 用 程序 的 详细 信息 ， 如 图 5-25 所 示 。 
application_1490058549121_0001 


Application Overview 
User: dadmin 
Name: org apache spark examples SparkP, 
Application Type: SPARK 
Application Tags: 
YarnApplicationState: FINISHED 
Queue: delaull 
FinalStatus Reported by AM: SUCCEEDED 
Started: Mon Mar 20 23:19:31 -0400 2017 





Elapsed: 1mns, 15sec 
Tracking URL: History 
Diagnostics: 


Application Metrics 
Total Resource Preempted: <memory:0, vCores:0> 

Total Number of Non-AM Containers Preempte 

Total Number of AM Containers Preemp: 

Resource Preempted from Current Attempt: <memory:0, vCores:0> 

Number of Non-AM Containers Preempted from Current Attemį 

Aggregate Resource Allocation: 465027 MB-seconds, 224 vcore-seconds 











Show 20 v onmes Search: 
Attempt ID > Stated $ Node © Logs ° Blacklisted Nodes © 
appattempt 1490058549121 0001 000001 Tue Mar21  pitp//cioud2:8042( Togs ) NIA 
1119:31 — 
+0800 2017 


5-25 ”应 用 程序 详细 信息 





框架 Spark 


继续 单 击 Logs 链接 ， 进 入 日 志 详情 页 面 ， 如 图 5-26 所 示 。 


QELE Logs for 


container_1490058549121_0001_01_000001 


< ResourceManager| stderr ; Total file length is 50230 bytes 
Hout Total file length is 33 byiss > 
RM Home —IP 





» NodeManager 
» Tools 


5-26 日志 详细 信息 


日 志 详 细 信 息 页 面 中 显示 了 两 个 文件 stderr 和 stdout， 单 击 stdout 文件 
链接 ， 显 示 出 应 用 程序 运行 结果 ， 如 图 5-27 所 示 。 


(lm Logs tor 


container_1490058549121_0001_01_ 





£ ResourceManagen Ct is roughly 3.1419975141997515 Ü 
RM Home 





5-27 ”应 用 程序 运行 结果 
至 此 测试 程序 提交 并 运行 成 功 ，Spark on Yarn 模式 集群 已 成 功 搭建 。 
3. 搭建 高 可 用 集群 


前 面 两 节 以 3 台 机 器 构成 的 集群 为 例 分 别 介绍 了 Standalone 模式 和 
Spark on Yarn 模式 集群 的 搭建 。 在 Standalone 模式 中 Worker 进程 部 署 
到 cloud2 和 cloud3 上 ,而 Master 进程 只 部 署 到 cloudl 上 。 在 实际 的 应 
用 中 车 只 有 一 个 Master 节点 ， 那 么 有 可 能 会 造成 单 点 故障 ， 即 若 Master 
节点 出 现 故障 则 会 影响 到 整个 集群 的 运行 ， 导 致 Spark 不 可 用 。 部 署 高 
可 用 集群 便 可 以 解决 单 点 故障 问题 , 在 生产 环境 中 一 般 部 署 高 可 用 集群 。 

Standalone 模式 集群 中 的 Master 节点 可 能 会 出 现 单 点 故障 , 有 以 下 
两 种 方法 实现 Standalone 高 可 用 集群 : 

(1) 增加 备用 Master 节点 来 实现 高 可 用 集群 。 

增加 一 台 或 多 台 备用 的 Master 节点 到 集群 ， 并 连接 到 Zookeeper 
集群 中 。Zookeeper 可 以 选择 一 台 Master 机 器 作为 主 节点 ， 而 使 其 他 
Master 机 器 作为 备用 节点 。 当 主 节点 出 现 故 障 后 ，Zookeeper 会 重新 选 
择 一 台 可 用 的 Master 机 器 作为 主 节 点 ， 这 样 就 解决 了 单 点 故障 问题 。 
高 可 用 集群 的 部 署 图 如 图 5-28 所 示 。 
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5-28 Standalone 高 可 用 集群 部 署 


具体 配置 方法 为 : 在 Master 节点 的 spark-env.sh 文件 中 的 配置 项 
SPARK_DAEMON _JAVA_OPTS 中 加 入 相关 属性 配置 ， 如 表 5-3 所 示 。 


表 5-3 Master 节点 Zookeeper 配置 


spark.deploy.recoveryMode ZOOKEEPER 


spark.deploy.zookeeper.url Zookeeper URL 
spark.deploy.zookeeper.dir Spark 在 Zookeeper 中 的 目录 





Zookeeper 集群 的 搭建 可 以 参考 Zookeeper 官方 网 站 http://zookeeper. 

apache.org 上 的 说 明 完 成 。 
(2) 配置 Master 节点 本 地 文件 系统 恢复 。 

这 种 方法 不 需要 搭建 备用 Master 节点 。 当 Master 节点 出 现 故 障 后 ， 
可 以 通过 重启 Master 来 恢复 之 前 在 文件 系统 中 保存 的 状态 。 该 方法 虽 
然 不 是 最 佳 的 高 可 用 方案 ， 但 也 提供 了 一 种 只 有 单 台 Master 节点 时 的 
高 可 用 方案 。 具 体 配 置 方法 为 : 在 Master 节点 的 spark-env.sh 文件 配置 
项 SPARK_DAEMON JAVA_OPTS 中 加 入 配置 项 ， 如 表 5-4 所 示 。 


表 5-4 Master 节点 文件 系统 恢复 配置 








属 性 名 值 
spark.deploy.recoveryMode FILESYSTEM 
spark.deploy.recoveryDirectory 用 于 存放 恢复 数据 的 目录 


在 前 面 介绍 过 Spark on Yarn 模式 集群 如 何 把 Hadoop 集群 与 Spark 
集群 部 署 在 一 起 。 其 中 Hadoop HDFS 的 NameNode 节点 和 Secondary 
NameNode 节点 部 署 到 单 台 机 器 上 , Hadoop Yarn 的 ResourceManager 也 部 
署 到 单 台 机 器 上 。 这 些 都 可 能 出 现 单 点 故障 问题 ， 在 实际 的 部 署 中 也 需要 
考虑 高 可 用 集群 方案 ， 包 括 Hadoop 的 高 可 用 集群 。 部 署 如 图 5-29 所 示 。 
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5-29 Spark 与 Hadoop 混合 高 可 用 集群 部 署 


A5.3 Spark 配置 


Spark 系统 有 以 下 三 种 配置 : 
(1) Spark 属性 ， 用 于 控制 应 用 程序 配置 ， 通 过 SparkConf 对 象 或 
Java 系统 属性 来 配置 。 
(2) 环境 变量 ， 用 于 设置 机 器 相关 的 设置 ， 如 IP 地址， 通过 每 个 
节点 上 的 conf/spark-env.sh 脚本 来 配置 。 
G) 日 志 配 置 ， 通 过 log4j.properties 来 配置 。 


5.3.1 Spark 属性 





Spark 应 用 程序 的 配置 主要 由 Spark 属性 决定 ， 且 不 同 应 用 可 以 使 
用 不 同 的 Spark 属性 。Spark 属性 的 配置 按 优 先 级 从 低 到 高 有 以 下 三 种 
方法 : 
(1) conf 目录 下 的 spark-defaults.conf 文件 。 
spark-defaults.conf 文件 可 以 从 spark-default.conf.template 文件 复制 
过 来 ， 示 例 配 置 如 图 5-30 所 示 。 


spark.eventLog.enabled true 

spark.serializer org.apache.spark.serial 
izer.KryoSerializer 

spark.driver.memory 4g 


5-30 spark-default.conf 文件 示例 


(2) 命令 行 参数 。 
使 用 ./bin/spark-submit 脚本 提交 应 用 程序 时 ， 通 过 命令 行 参 数 指定 
Spark 属性 。 命 令 格 式 如 下 : 


-bin/spark-submit --name "My app" \ 

—master local[4] \ 

—conf spark.eventLog.enabled=false \ 

—conf "spark.executor.extraJavaOptions=\ 
-XX:+PrintGCDetails -XX:+PrintGCTimeStamps" \ 
myApp.jar 


可 以 通过 spark-submit 脚本 的 命令 行 参 数 --conf 指定 Spark 属性 。 
命令 行 参数 的 使 用 方法 可 以 通过 ./bin/spark-submit --help 来 查询 。 
(3) SparkConf 对 象 。 
在 编写 程序 时 可 以 通过 SparkConf 对 象 指 定 Spark 属性 ， 代 码 示例 
如 下 : 
val conf = new SparkConf() 
.setMaster("local[2]") 
-setAppName("Myapp") 
.set("spark.executor.memory", "2g") 
val sc = new SparkContext(conf) 


将 Spark 属性 写 在 代码 中 没有 命令 行 参数 灵活 ， 因 为 一 旦 程序 写 好 
了 ， 这 些 参数 优先 级 是 最 高 的 ， 在 外 部 没有 办 法 修改 。 

表 5-5 中 列 出 了 常用 的 Spark 属性 , 完整 的 Spark 属性 请 参考 Spark 
官方 文档 http://spark.apache.org/docs/latest/configuration.html o 


表 5-5 Spark 常用 属性 


每 个 spark action 的 结果 最 大 值 。 设 置 合 
适 的 大 小 可 以 避免 out-of-memory 错误 
Driver 进程 所 使 用 的 内 存 大 小 

每 个 executor 进程 所 使 用 的 内 存 大 小 
Spark 本 地 目录 ， 可 以 指定 多 个 目录 并 用 
逗号 分 隔 

以 INFO 级 别 打 出 有 效 的 SparkConf 日 志 
集群 管理 器 URL, 具体 格式 如 表 5-6 所 示 
Driver 程序 的 部 署 模式 ， 取 值 为 “client” 


或 “cluster” 


spark.driver.maxResultSize 





spark.driver.memory 





spark.executor.memory 





spark.local.dir 





spark.logConf 





spark.master 


spark.submit.deployMode 





Spark.master 属性 为 Master URL, 具有 多 种 格式 , 具体 如 表 5-6 所 示 。 


表 5-6 Master URL 格式 











Master URL £ A 
local 本 地 运行 Spark， 使 用 一 个 worker 线程 
local[K] 本 地 运行 Spark， 使 用 K 个 worker 线程 
local[*] 本 地 运行 Spark, 使 用 和 逻辑 core 数量 一 致 的 worker 线程 





使 用 Standalone 模式 集群 管理 器 ，HOST 为 Master 节点 ， 
PORT 默认 为 7077 


mesos://HOST:PORT | 使 用 Mesos 模式 集群 管理 器 ，PORT 默认 为 5050 
yarn 使 用 Yarn 模式 集群 管理 器 


spark://HOST:PORT 





5.3.2 ”环境 变量 配置 


有 部 分 Spark 程序 配置 可 以 通过 环境 变量 方式 指定 ， 如 配置 文件 目 
录 可 通过 环境 变量 SPARK_ CONF DIR 来 指定 。 环 境 变量 可 以 在 提交 程 
序 之 前 通过 export 方式 来 设置 ， 也 可 以 通过 配置 文件 目录 下 的 spark- 
env.sh 文件 指定 。 

常用 的 通用 配置 如 表 5-7 所 示 , 完整 的 环境 变量 配置 可 以 参考 conf 
目录 下 的 spark-env.sh.template。 


表 5-7 常用 环境 变量 配置 项 





配 置 项 含 义 
SPARK LOCAL IP 绑 定 的 IP Hh H: 
SPARK PUBLIC DNS Driver 程序 使 用 的 DNS 服务 器 
SPARK CLASSPATH 额外 追加 的 classpath 


5.3.3 ”日 志 配置 


日 志 配置 使 用 配置 文件 目录 下 的 log4j.properties 文件 , 完整 配置 选 
项 可 以 参考 conf 目录 下 的 log4j.properties.template， 可 以 复制 一 份 作为 
默认 配置 。 

例如 修改 10g4j.rootCategory 配置 可 以 调整 Spark 程序 在 屏幕 上 打印 
的 日 志 级 别 : 


log4j.rootCategory=ERROR, console # 输 出 ERROR 级 别 日 志 


修改 log4j.appender.console.layout.ConversionPattern 配置 可 以 调整 
Spark 程序 在 屏幕 上 打印 的 日 志 内 容 和 格式 : 


log4j.appender.console.layout.ConversionPattern=%d{yy/MM/dd 
HH:mm:ss) %p %c{1}: %m%n 
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5.3.4 ”查看 配置 


Spark shell 提供 了 交互 式 的 方式 来 运行 程序 ， 它 也 是 通过 spark- 
submit 脚本 提交 任务 。 下 面 以 运行 Spark shell 为 例 ， 查 看 Spark 应 用 程 
序 的 配置 。 

进入 Spark 目录 /home/dtadmin/spark-2.1.0-bin-hadoop2.7， 运 行 命令 : 


-bin/spark-shell 


运行 结果 如 图 5-31 所 示 。 


Spark context Web UI available at http://192.168.100.10: 
4040 

Spark context available as 'sc' (master = local[*], app 
id = local-1501904320909). 

Spark session available as 'spark'. 

Welcome to 

F TE 
= t = a SP 


/ 2 JOAN version 2.1.0 


Using Scala version 2.11.8 (Java HotSpot (TM) 64-Bit Serv 
er VM, Java 1.8.0_121) 

Type in expressions to have them evaluated. 

Type :help for more information. 


scala> 
图 5-31 运行 Spark shell 
这 时 再 打开 一 个 ssh 界面 ， 运 行 jps 命令 ， 结 果 如 图 5-32 所 示 。 


[dtadminecloudl ~]5 jps 
2722 ResourceManager 
3013 Master 

3273 Jps 

2268 NameNode 

2556 SecondaryNameNode 
3101 SparkSubmit 


图 5-32 运行 jps 命令 查看 Java 进程 

此 时 已 运行 了 一 个 名 为 SparkSubmit 的 进程 ， 这 个 进程 即 为 以 本 地 
运行 (local) 方式 运行 的 Driver Program， 并 通过 监听 4040 端口 提供 了 
Web 界面 。 打 开 URL: http://cloud1:4040/ ， 可 以 看 到 应 用 程序 的 界面 ， 
如 图 5-33 所 示 。 

单 击 Environment 后 可 以 看 到 应 用 程序 的 配置 ， 如 图 5-34 所 示 。 

从 Environment 页 面 可 以 看 到 Java 的 Runtime 信息 、Spark 属性 、 
系统 属性 等 配置 信息 。 图 5-34 中 标 出 了 几 个 重要 Spark 属性 : 应 用 程 
序 名 、Master URL 和 应 用 程序 deployMode。 
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x< k Spark shell application UI 





Jobs Stages Storage Environment Executors SQL 


Spark Jobs (?) 


User dtadmin 
Total Uptime: 31 min 
Scheduling Mode: FIFO 


> Event Timeline 
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Jobs Stages Storage Environment Executors SQL 


Environment 


Runtime Information 


Name Value 

Java Home fusr/java/jdk1 8 0_121/jre 

Java Version 1 8 0_121 (Oracle Corporation) 
Scala Version version 2.11.8 


Spark Properties 





Name Value 

spark app id local-1490928889683 

spark.app.name 

spark.driver.host 192.168.100.10 

spark driver port 43798 

Spark executor id driver 

spark home /home/dtadmin/spark-2 1 0-bin-hadoop2 7 

spark jars 

spark master 

spark repl.class outputDir ltmp/spark-f1d21968-b535-4c14-aa01- 
36c01d526aeb/repl-805304eb-c3d6-4911-ad3b- 
d882f3dbe4f4 

spark repl.class uri spark://192 168.100.10:43798/classes 

spark scheduler mode FIFO 

spark sql. cataloglmplementation hive 





spark submit deployMode 


5-34 ”查看 应 用 程序 配置 


¿45.4 Spark RDD ` 


Spark 的 数据 处 理 建立 在 统一 抽象 的 RDD (Resilient Distributed 


473 = 


“一 174 大 数据 实践 一 


Dataset) 上 ， 对 RDD 的 理解 在 使 用 Spark 进行 数据 处 理 中 至 关 重 要 。 
本 节 重 点 介绍 RDD 的 基本 概念 、 特 性 及 RDD 操作 。 


5.4.1 RDD 特征 

RDD 的 全 称 是 “弹性 分 布 式 数据 集 ”(Resilient Distributed Dataset), 
从 它 的 名 称 上 看 RDD 是 分 布 式 、 弹 性 的 数据 集合 。 分 布 式 特 征 即 数据 
集合 分 布 存 储 ， 分 散在 各 个 Spark 节点 中 。 弹 性 特征 是 指数 据 分 片 方 法 


可 以 自 定义 及 数据 分 片 丢失 后 的 容错 性 。 
RDD 具备 以 下 主要 特征 。 


1. 数据 集 

和 编程 语言 中 的 集合 类 似 ， 如 Array, List 等 。 

2 分布 式 存储 

数据 集中 的 成 员 被 切 分 为 多 个 数据 块 , 分 散 存储 于 多 个 集群 节点 上 。 

3. 弹性 分 布 

数据 的 分 片 〈 数 据 切 分 ) 可 以 自 定 义 〈 设 置 分 片 函数 )。 

4. Ri 

一 个 RDD 一 旦 生成 ， 内 容 就 不 可 以 修改 ， 这 样 在 进行 并 行 计算 时 
就 不 需要 考虑 数据 互 斥 等 同步 问题 。 

5. 可 持久 化 


一 般 从 一 个 RDD 转换 至 另 一 新 的 RDD 后 旧 的 RDD 不 会 再 使 用 ， 
但 可 以 把 RDD 缓存 起 来 ,以 供 后 续 重复 使 用 , 避免 了 RDD 的 重复 计算 。 


6. 可 重新 计算 

车 某 个 节点 的 宕 机 导致 存储 在 其 上 的 RDD 数据 片 丢失 ，Spark 可 
以 重新 计算 出 这 部 分 的 分 区 数据 。 
5.4.2 RDD 转换 操作 (Transformation ) 

RDD 的 转换 是 指 由 一 个 RDD 生成 新 的 RDD 的 过 程 。 在 Spark 中 


RDD 的 转换 有 map、flatMap、filter、groupByKey 等 ， 表 5-8 列 出 了 部 
分 常用 的 RDD 转换 方法 。 





表 5-8 常用 的 RDD 转换 操作 





RDD 转换 Ê x 
map(func 通过 函数 funcO 对 数据 集中 的 每 个 成 员 进 行 转换 
filter(func) 通过 函数 funcO 选 择 过 滤 数 据 集中 的 成 员 
和 map 转换 类 似 , 但 函数 func0 可 以 把 单个 成 员 转 换 为 
flatMap(func) 


多 个 成 员 

返回 当前 集合 与 otherDataset 集合 的 union 操作 

去 掉 集合 中 重复 成 员 ， 使 新 的 集合 中 成 员 各 不 相同 
对 键 - 值 (key-value) 对 集合 按照 键 (key) 进行 groupBy 
操作 

通过 函数 func 对 键 - 值 (key-value) 对 集合 进行 聚合 
(aggregate) 操作 

对 键 - 值 (key-value) 对 集合 进行 排序 

对 两 个 键 - 值 (key-value〉 对 集合 : (K.V)，(K,W) 进 
行 连接 操作 ， 形 成 新 的 键 - 值 对 集合 :(K,，(V,W)) 
对 两 个 键 - 值 (key-value〉 对 集合 : (K,V)，(K,W) jË 
行 协同 划分 操作 ， 形 成 新 的 键 - 值 对 集合 : 

(K, (Iterable<V>,Iterable<W>)) 





union(otherDataset) 





Distinct 





groupByKey 





reduceByKey(func) 
sortByKe: 


join(otherDataset) 


cogroup(otherDataset) 





5.4.3 RDD 依赖 


对 RDD 转换 ， 形 成 了 新 的 RDD， 可 以 认为 新 的 RDD 依赖 于 旧 的 
RDD， 旧 的 RDD 称 为 父 RDD， 新 的 RDD 称 为 子 RDD。 由 于 RDD 由 
分 布 的 数据 切片 〈 分 区 ) 组 成 ， 根 据 RDD 转换 时 新 旧 分 区 之 间 的 关系 
将 依赖 分 为 两 种 类 型 : 窄 依赖 和 宽 依 赖 ， 这 是 划分 有 向 无 环 图 DAG 阶 
Ë: (stage) 的 重要 依据 。 


1. 窄 依赖 


FIKEN (Narrow Dependency) 是 指 父 RDD 的 每 个 数据 分 区 最 多 被 
一 个 子 RDD 的 数据 分 区 所 用 ,可 以 是 一 个 父 RDD 分 区 对 应 一 个 子 RDD 
分 区 (第 一 类 ) 或 者 多 个 父 RDD 分 区 对 应 一 个 子 RDD 分 区 (第 二 类 )。 

图 5-35 所 示 为 RDD 的 map 转换 ，RDD 2 窄 依赖 于 RDD 1， 且 一 
个 父 RDD 分 区 对 应 一 个 子 RDD 分 区 (第 一 类 )。 图 5-36 所 示 为 RDD 
的 join 转换 ，RDD 1 和 RDD 2 进行 cogroup 转换 为 RDD 3, RDD3 £ 
依赖 于 RDD 1 和 RDD 2, 且 多 个 父 RDD 分 区 对 应 一 个 子 RDD 分 区 (第 
二 类 )。 

可 以 看 出 窄 依赖 中 的 子 RDD 分 区 依赖 于 常数 个 父 RDD 分 区 , 与 
父 RDD 的 数据 规模 无 关 。 
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RDD 1 


RDD 3 








RDD 1 RDD 2 



































map cogroup 
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2. 宽 依赖 

宽 依赖 (Wide Dependency) 是 指 子 RDD 的 每 个 分 区 都 依赖 于 父 
RDD 的 所 有 分 区 或 者 多 个 分 区 , 即 存在 一 个 父 RDD 分 区 可 以 对 应 多 个 
子 RDD 分 区 。 图 5-37 所 示 为 RDD 的 groupByKey 转换 ， 对 RDD 1 进 
行 groupByKey 转换 , 转换 为 RDD 2, RDD 2 的 每 个 分 区 都 依赖 于 RDD 1 
的 所 有 分 区 。 


RDD 1 
RDD 2 





groupByKey 
图 5-37 RDD 的 groupByKey 转换 


这 两 种 类 型 的 依赖 在 实际 RDD 转换 时 存在 较 大 的 差别 : 使 用 窗 依 
赖 时 新 的 RDD 分 区 可 以 从 相同 节点 的 旧 RDD 分 区 计算 得 出 或 者 由 常 
数 个 RDD 分 区 计算 得 出 , 网 络 开销 很 小 , 效率 较 高 , 常见 的 map. filter 
操作 都 是 这 一 类 ; 而 使 用 宽 依赖 时 新 RDD 分 区 的 计算 可 能 会 使 用 到 所 
AIH RDD 分 区 ， 计 算 时 可 能 涉及 所 有 节点 的 数据 传输 ， 开 销 较 大 。 

在 RDD 分 区 丢失 后 的 数据 恢复 方面 两 种 依赖 也 有 区 别 : 由 于 罕 依 
赖 的 分 区 只 依赖 于 单个 或 常数 个 的 父 分 区 , 窗 依 赖 计算 丢失 的 数据 分 区 
代价 较 小 ; 而 宽 依赖 的 分 区 可 能 依赖 于 所 有 的 父 分 区 , 在 计算 丢失 的 数 


据 分 区 时 代价 较 大 ， 有 可 能 需要 整体 重新 计算 。 
5.4.4 RDD 行动 操作 


RDD 行动 操作 (Action) 是 相对 于 转换 (Transformation)〉 的 另外 
一 种 操作 。RDD 转换 操作 并 没有 真正 执行 计算 ， 而 行动 操作 的 执行 会 
引起 RDD 转换 的 实际 计算 。RDD 的 转换 操作 是 由 一 个 或 多 个 RDD il 
算 生成 新 的 RDD 的 过 程 ， 而 RDD 的 行动 操作 不 生成 新 的 RDD， 而 是 
保存 RDD 或 是 将 对 RDD 的 计算 结果 返回 至 驱动 程序 (Driver Program) 
等 操作 。 表 5-9 列 出 了 常用 的 RDD 行动 操作 。 


表 5-9 常用 的 RDD 行动 操作 


Action 含 义 
collect 返回 RDD 中 的 所 有 元 素 
count 返回 RDD 中 元 素 的 数量 
countByKey 计算 键 - 值 对 RDD 每 个 键 (key) 对 应 的 元 素 个 数 
first 返回 RDD 中 第 一 个 元 素 
take(n) 返回 RDD 中 前 n 个 元 素 
reduce(func) 通过 函数 func 对 RDD 进行 聚合 操作 


把 RDD 保存 为 一 个 文本 文件 , 可 以 选择 保存 在 本 地 文件 

系统 、HDFS 等 。 文件 中 的 一 行为 RDD 中 的 一 个 元 素 
saveAsObjectFile(path) | 将 RDD 保存 为 一 个 Java 序列 化 格式 文件 

通过 函数 func 对 RDD 中 的 每 个 元 素 进行 计算 ， 通 常 

在 更 新 累加 器 或 者 使 用 外 部 存储 系统 时 用 到 


saveAsTextFile(path) 





foreach(func) 


5.5 Spark Shell 


Spark Shell 是 一 种 交互 式 数 据 分 析 工 具 , 同时 也 提供 了 一 种 快速 学 
2] Spark API 的 方法 。 它 适用 于 快速 数据 分 析 、 快 速 原型 开发 以 及 初学 
者 的 Spark 编程 学 习 。 在 Spark Shell 中 可 以 使 用 编程 语言 Scala 或 Python 
进行 编程 。Scala 是 一 种 运行 在 JVM 上 的 类 似 Java 的 编程 语言 ，Spark 
便 是 用 Scala 编写 的 ,使 用 Scala 的 好 处 之 一 是 可 以 使 用 现 有 的 Java E 。 
在 本 章节 中 以 使 用 Scala 为 例 介绍 如 何 使 用 Spark Shell 处 理 数据 。 


5.5.1 准备 工作 
在 使 用 Spark Shell 处 理 数 据 之 前 ， 要 准备 好 待 处 理 的 数据 。 选 择 


一 些 文本 数据 放 到 Hadoop HDFS 上 , Spark 程序 可 以 处 理 HDFS 上 的 文 
件 。 本 例 中 使 用 前 面 章 节 部 署 好 的 Spark 与 Hadoop 混合 部 署 集群 (Spark 
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on Yarn 模式 集群 )。 在 HDFS 中 创建 目录 , 并 上 传 文件 , 具体 命令 如 下 : 


export HADOOP_HOME=~/hadoop-2.7.3 # 创 建 Hadoop 目录 环境 变量 
cd ~/spark-2.1.0-bin-hadoop2.7 # 进 入 Spark 目录 
$HADOOP_HOME/bin/hadoop fs -mkdir /testdata #HDFS 中 创建 目录 
$HADOOP_HOME/bin/hadoop fs -put ./LICENSE /testdata # 上 传 文件 
$HADOOP_HOME/bin/hadoop fs -put ./NOTICE /testdata # 上 传 文件 
$HADOOP_HOME/bin/hadoop fs -put .JREADME.md /testdata  # 上 传 文件 
$HADOOP_HOME/bin/hadoop fs -put ./RELEASE /testdata # 上 传 文件 


上 述 命令 把 Spark 目录 下 的 几 个 文本 文件 (LICENSE、NOTICE、 
README.md、RELEASE) 上 传 至 HDFS 目录 /testdata， 用 于 后 续 的 数 
据 分 析 实 验 。 上 传 后 可 以 使 用 Hadoop 命令 查看 文件 ， 如 图 5-38 所 示 。 


[dtadmin@cloudl1 hadoop-2.7.3]$ ./bin/hadoop fs -ls /test 


data 

Found 5 items 

—rwu-r--r— 3 dtadmin supergroup 17811 2017-03-31 
05:59 /testdata/LICENSE 

—-rw-r--r-- 3 dtadmin supergroup 24645 2017-03-31 
05:59 /testdata/NOTICE 

-rw-r--r-- 3 dtadmin supergroup 3818 2017-03-31 
05:59 /testdata/README.md 

-rw-r--r-- 3 dtadmin supergroup 128 2017-03-31 


05:59 /testdata/RELEASE 


5-38 ”查看 HDFS 测试 数据 文件 
5.5.2 启动 Spark Shell 


进入 Spark home 目录 ， 运 行 spark-shell 命令 。 具 体 命令 如 下 : 


cd ~/spark-2.1.0-bin-hadoop2.7 
./bin/spark-shell --master spark://cloud1:7077 


Spark-shell 的 参数 --master 指定 了 Master URL, 这 里 使 用 的 是 Standalone 
模式 集群 。Spark-shell 的 运行 界面 如 图 5-39 所 示 。 


Spark context Web UI available at http://192.168.100.10: 
4040 

Spark context available as 'sc' (master = spark://cloudl 
:7077, app id = app-20170804234858-0001). 

Spark session available as 'spark'. 

Welcome to 








/N 2 JO / 八 \ version 2.1.0 


Using Scala version 2.11.8 (Java HotSpot(TM) 64-Bit Serv 
er VM, Java 1.8.0_121) 

Type in expressions to have them evaluated. 

Type :help for more information. 


scala> 





图 5-39 ”Spark-shell 运行 界面 


Spark-shell 在 背后 使 用 spark-submit 脚本 提交 了 一 个 Spark 应 用 。 
从 日 志 可 以 看 出 此 应 用 的 Master URL X: spark:/cloud1:7077, Spark 
context 的 Web 界面 地 址 为 : http://192.168.100.10:4040, 进入 Spark Shell 
的 命令 提示 符 为 “scala>”， 表 明 Spark Shell 使 用 的 是 Scala 语言 。 

Spark-shell 也 可 以 不 指定 --master 参数 运行 ， 默 认为 本 地 模式 运行 
Spark 应 用 程序 。 


5.5.3 创建 RDD 


创建 RDD 需要 使 用 SparkContext 对 象 的 方法 ，spark-shell 会 默认 创 
建 一 个 SparkContext 对 象 sc， 可 以 直接 使 用 。RDD 的 创建 方式 有 两 种 : 
(1) 通过 驱动 程序 (Driver Program) 中 的 集合 来 创建 。 
使 用 SparkContext 的 parallelize 方法 创建 ， 代 码 示例 如 下 : 
val data = Array(1, 2, 3, 4, 5) # 创 建 数组 对 象 
val distData = sc.parallelize(data) # 创 建 RDD 对 象 distData 
(2) 通过 外 部 存储 数据 来 创建 ， 包 括 本 地 文件 系统 、HDFS、 
HBase 等 。 
使 用 SparkContext 的 textFile 方法 创建 , textFile 的 参数 可 以 通过 前 
组 file:// 指 定 本 地 文件 或 者 HDFS:// 指 定 HDFS 文件 。 
从 本 地 文件 创建 RDD 的 代码 示例 如 下 : 


val rddLocalFile=sc.textFile(“file:///home/dtadmin/testfile”) 


从 HDFS 文件 创建 RDD 的 代码 示例 如 下 : 


val rddHdfsFile=sc.textFile(“HDFS://cloud1:9000/testfile”) 


本 例 中 从 HDFS 创建 RDD, 使 用 HDFS 目录 /testdata 下 的 所 有 文件 ， 
代码 如 下 : 


val rddTextFile=sc.textFile("HDFS://cloud1:9000/testdata/*") 


执行 命令 后 Spark Shell 显示 创建 出 的 RDD 对 象 信息 ， 如 图 5-40 
所 示 。 


scala> val rddTextFile=sc.textFile ("HDFS://cloudl:9000/t 

estdata/*") 

rddTextFile: org.apache.spark.rdd.RDD[String] = HDFS://c 

loud1:9000/testdata/* MapPartitionsRDD[1] at textFile at 
<console>:24 


图 5-40 从 HDFS 目录 /testdata 下 创建 RDD 
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5.5.4 转换 RDD 


在 上 节 中 已 从 HDFS 目录 /testdata 下 的 所 有 文件 创建 好 RDD 对 象 
rddTextFile, 文件 中 的 每 一 行 对 应 RDD 中 的 一 个 元 素 。 下 面 要 通过 RDD 
的 转换 实现 文本 中 单词 出 现 频率 的 分 析 ， 找 出 出 现 次 数 超过 10 次 的 单 
词 。 代 码 如 下 所 示 ， 共 有 6 次 RDD 的 转换 : 

val words=rddTextFile flatMap(line=>line split(" ")) (1) 


val words_normal=words.filter(word=>word.length>3&&word.length<10) (2) 
val words_normal_lower=words_normal.map(word=>word.toLowerCase) (3) 


val words_map=words_normal_lower.map(word=>(word,1)) (4) 
val words_count=words_map.reduceByKey((num1,num2)=>num1+num2) (5) 
val words_final=words_count.filterí wpair=>wpair._2>10) (6) 
下 面 详细 讲述 这 6 次 转换 : 


(1) 使 用 flatMap 转换 将 RDD 元 素 中 的 文本 行 切 分 为 单词 。 
flatMap 转换 将 RDD 中 的 一 个 元 素 转 成 多 个 元 素 。 这 里 转换 函数 为 
line=>line.split(“ ”)， 其 中 参数 为 一 个 对 象 而 返回 多 个 对 象 。 函 数 通过 字 
符 串 的 split 方法 按照 空格 进行 切 分 , 转换 前 RDD 中 的 元 素 为 文本 中 的 
行 ， 转 换 后 为 通过 空格 切 分 的 单词 。 
(2) 使 用 filter 转换 将 RDD 中 长 度 小 于 等 于 3 或 大 于 等 于 10 的 元 
filter 转换 可 以 选择 过 滤 RDD 中 的 元 素 。 这 里 转换 函数 为 word=> 
word.length>3&&word.length<10, 函数 返回 布尔 值 , 通 过 字符 串 的 length 
方法 判断 元 素 是 否 符合 过 滤 条 件 。 
(3) 使 用 map 转换 将 RDD 元 素 转换 为 小 写 。map 转换 将 RDD 中 
的 元 素 进 行 一 对 一 的 转换 。 这 里 转换 函数 为 word=>word.toLowerCase， 
函数 通过 字符 串 的 toLowerCase 返回 参数 的 小 写 形 式 。 转 换 后 RDD 元 
素 都 为 小 写 单 词 。 
(4) 使 用 map 转换 将 RDD 元 素 转换 为 键 值 对 形式 : (word,1)， 键 
为 元 素 单词 而 值 都 固定 为 1 。 
转换 函数 word=>(word,1) 将 RDD 元 素 转 成 键 值 对 形式 ， 为 下 面 的 
reduceByKey 转换 做 准备 。 
(5) 使 用 reduceByKey 转换 将 键 值 对 RDD 按照 相同 的 键 聚 合 。 
reduceByKey 转换 按照 相同 的 键 (key) 将 RDD 元 素 进 行 聚合 ， 聚 
合 后 键 值 对 RDD 元 素 的 值 (value) 通过 转换 函数 算出 。 这 里 的 转换 函 
数 为 muml,num2)=>numl+num2， 函数 有 两 个 参数 : numl、num2， 返 
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回 这 两 个 参数 之 和 。 这 样 转换 后 便 统计 出 来 每 个 单词 出 现 的 次 数 。 
C6) 使 用 filter 转换 把 键 值 对 RDD 中 值 小 于 等 于 10 的 元 素 过 滤 掉 。 
这 里 转换 函数 为 wpair=>wpair 2>10， 函 数 的 参数 为 键 值 对 形式 ， 
wpair. 2 代表 其 值 ， 过 滤 掉 值 (value) 小 于 等 于 10 的 键 值 对 元 素 。 
运行 结果 如 图 5-41 所 示 。 
scala> val rddTextFile=sc.textFile ("HDFS://cloud1:9000/te 
stdata/*") 
rddTextFile: org.apache.spark.rdd.RDD[String] = HDFS://cl 


oud1:9000/testdata/* MapPartitionsRDD[3] at textFile at < 


console>:24 
scala> val words=rddTextFile.flatMap(line=>line.split(" " 








words: org.apache.spark.rdd.RDD[String] = MapPartitionsRD 
D[4] at flatMap at <console>:26 

scala> val words normal=words.filter(word=>word.length>3& 
&word.length<10 

words_normal: org.apache.spark.rdd.RDD[String] = MapParti 
tionsRDD[51 at filter at <console>:28 

scala> val words normal lower=words normal.map (word=>word 
:toLowerCase) 

words normal lower: org.apache.spark.rdd.RDD[String] = Ma 


pPartitionsRDD[6] at map at <console>:30 
scala> val words map=words normal lower.map (word=> (word,1 


) 
words_map: org.apache.spark.rdd.RDD[ (String, Int)] = MapP 


artitionsRDD[7] at map at <console>:32 
scala> val words_count=words_map.reduceByKey ( (num1, num2)= 


>numl+num2) 
words_count: org.apache.spark.rdd.RDD[ (String, Int)] = Sh 


uffledRDD[8] at reduceBvKev at <console>:34 
scala> val words_final=words_count.filter(wpair=>wpair._2 


>10) 
words_final: org.apache.spark.rdd.RDD[ (String, Int)] = Ma 
pPartitionsRDD[9] at filter at <console>:36 


5-41 RDD 转换 分 析 单词 出 现 频率 
5.5.5 执行 RDD 作业 

















上 节 进 行 了 RDD 的 转换 ， 但 在 Spark 中 这 些 转换 目前 都 没有 被 执 
行 ， 因 为 Spark 中 的 RDD 转换 都 是 惰性 (Lazy) 的 ， 每 个 转换 不 会 立 
即 计算 出 结果 ， 只 是 记录 下 该 转换 操作 所 需 的 基础 数据 集 ， 只 有 在 遇 到 
RDD 行动 操作 (Action) 时 才 会 一 起 被 执行 。 RDD、 转 换 操作 和 行动 操 
作 之 间 的 关系 如 图 5-42 所 示 。 


$ ° 


图 5-42 RDD 的 作业 执行 


181 一 


e— 182 大 数据 实践 一 


在 执行 Action 之 前 通过 Spark Shell Web 界面 查看 是 否 有 作业 生成 。 
打开 URL: http://cloud1:4040， 如 图 5-43 所 示 。 


spä i Spark shell application UI 


Jobs Stages Storage Environment Executors SQL 


Spark Jobs (?) 


User: dtadmin 
Total Uptime: 2.2 h 
Scheduling Mode: FIFO 


> Event Timeline 


5-43 ”执行 RDD 行动 操作 前 查看 Spark Shell Web 界面 
可 以 看 出 没有 Spark Job 被 提交 , 执行 collect 行动 操作 代码 如 下 所 示 : 
words_final.collect() 


words_final 是 转换 后 最 终 的 RDD 对 象 ， 它 的 方法 collect 是 收集 
RDD 数据 至 驱动 程序 (Driver Program)， 并 通过 Spark Shell 打印 出 来 。 
执行 后 输出 结果 如 图 5-44 所 示 ， 显 示 了 出 现 超过 10 次 的 单词 及 其 出 现 
频次 。 


scala> words_final.collect() 
[Stage 0: 
[Stage 0:= 
[Stage 0:= 
[Stage 1:> 








res0: Array[(String, Int)] = Array((under,39), (version,2 
0), (file,17), ((mit,20), (notice,13), (shall,15), (class 
,11), (developed,19), (license),35), (commons,15), (other 
111), (spark,20), (including,16), (license,61), (project, 
18), (code,11), (following,17), (which,16), (public,13), 
(work,25), (license.,24), (apache,86), (this,73), (works, 
14), (with,25), (fromy21), (license,,13), (such,18); (sof 
tware, 62), (includes,19), (provided,13), (product,38), (1 
ibrary,11), ((bsd,14), (terms,13), (your,14), (source,22) 
, (that,29), (copyright,78)) 


图 5-44 RDD 作业 输出 结果 


此 时 再 次 查看 Spark Shell Web 界面 ,可 以 看 到 被 提交 的 Spark 作业 ， 
如 图 5-45 所 示 。“Completed Jobs”( 完 成 的 作业 ) 表 中 显示 出 一 个 ID 
为 0 的 作业 ， 列 出 了 作业 的 相关 信息 : 执行 时 间 为 8s, ME (stage) 
数 及 对 应 的 状态 ， 任 务 Ctask) 数 及 对 应 的 状态 。 此 作业 即 为 行动 操作 
words_final.collect() 提 交 的 Spark 作业 。 
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Spark Jobs (?) 


User: dtadmin 

Total Uptime: 2.2 h 
Scheduling Mode: FIFO 
Completed Jobs: 1 


> Event Timeline 


Completed Jobs (1) 
Tasks (for all 
Job Stages: stages): 
ld + Description Submitted Duration Succeeded/Total Succeeded/Total 
0 collect at <console>:39 2017/03/31 8s 2/2 T: 


10:13:16 
5-45 ”执行 行动 操作 后 查看 Spark Shell Web 界面 


单 击 Description 列 出 此 作业 对 应 的 链接 ， 可 以 继续 查看 作业 的 详 
细 信 息 ， 包 括 有 向 无 环 图 (DAG) 的 阶段 〈stage) 划分 和 阶段 的 具体 
信息 。DAG 的 阶段 划分 如 图 5-46 所 示 。 


* DAG Visualization 


Stage 0 Stage 1 





图 5-46 DAG 的 阶段 划分 


从 DAG 图 中 可 以 看 出 整个 DAG 被 划分 为 两 个 阶段 :stage 0 和 stage 1。 
转换 操作 flatMap、filter、map 都 属于 窄 依赖 ， 故 被 划分 到 stage 0 中 ; 
而 reduceByKey 操作 属于 宽 依赖 , 故 和 最 后 的 filter 操作 被 划分 到 stage 1 
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中 。 在 作业 的 详细 信息 页 面 中 同时 也 列 出 了 阶段 的 具体 信息 ,如 图 5-47 
所 示 。 
Completed Stages (2) 
Stage Tasks: Shuffle Shuffle 
id + Description Submitted Duration Succeeded/Total Input Output Read Write 
1 collect at 2017/03/31 0.7 s T 10.0 
<console>:39 10:13:23 KB 
+details 
0 map at 2017/03/31 7 s R 45.3 10.0 
<console>:32 10:13:16 KB KB 


+details 


5-47 ”完成 的 Stage 具体 信息 
Completed Stages 表 中 列 出 了 阶段 (Stage) 的 具体 信息 : 提交 时 间 、 


执行 事件 和 所 使 用 的 task 等 。 


至 此 通过 Spark Shell 分 析 HDFS 上 数据 的 程序 就 完成 了 ， 通 过 这 


个 示例 ， 读 者 熟悉 了 RDD 的 创建 、 转 换 操作 、 行 动 操作 以 及 DAG 阶 
段 划分 的 过 程 ， 了 解 了 Spark 处 理 数据 的 方法 及 其 基本 原理 。 


实验 4 Spark Standalone 集群 搭建 


实验 目的 


本 实验 的 目的 如 下 : 

口 掌握 Spark 体系 架构 。 

口 掌握 Spark 集群 安装 部 署 步骤 。 

口 掌握 Spark 程序 的 提交 及 测试 方法 。 


实验 要 求 


本 实验 的 要 求 如 下 : 

口 部 署 一 个 Master 节点 、 两 个 Slave 节点 。 

O 提交 Spark 自 带 的 测试 程序 org.apache.spark.examples.SparkPi。 
口 查看 Spark 程序 运行 结果 。 


实验 步骤 


本 实验 步骤 如 下 : 

(1) 部 署 一 个 Master 节点 、 两 个 Slave 节点 。 
(2) 配置 网 络 ， 检 查 关 闭 防火 墙 。 

(3) 配置 hosts 文 件 。 


(4) 创建 新 用 户 dtadmin， 并 授予 管理 员 权限 。 
(5) 安装 JDK。 
(6) 配置 免 密码 登录 ， 使 从 Master 节点 可 以 免 密码 登录 到 Slave 


(7) 下 载 Spark 安装 包 , 选择 包 类 型 为 Pre-built for Hadoop 2.7 and 


(8) 解压 安装 包 到 每 个 节点 。 
(9) 配置 Master 节点 slaves 文件 。 
(10) 通过 Master 节点 的 start-all.sh 脚本 启动 集群 。 
(11) 通过 jps 命令 查看 启动 的 Spark 进程 。 
(12) 通过 Maser 节点 Web 界面 查看 集群 状态 。 
(13) 使 用 spark-submit 脚本 提交 Spark 程序 : 
O Jar & A ./examples/jars/spark-examples_2.11-2.1.0.jar, 





口 class 为 org.apache.spark.examples.SparkPi。 
(14) 通过 Master 节点 Web 界面 查看 程序 运行 结果 。 


习题 5 


.Spark 集群 有 哪 几 种 模式 ? 

. Standalone 集群 中 的 Master 节点 和 Slave 节点 分 别 负责 什么 功能 ? 
.使 用 Hadoop Yarn 作为 Spark 的 集群 管理 器 有 什么 优点 ? 
.spark-submit 脚本 的 功能 是 什么 ? 

.分布 式 弹性 数据 集 的 特点 有 哪些 ? 

.了 驱动 程序 (Driver Program) 和 执行 器 (Executor) fE Spark 作 
了 时 分 别 负责 什么 功能 ? 

7. 列举 三 个 RDD 转换 操作 ， 并 描述 其 功能 。 

8. 列举 三 个 RDD 行动 操作 ， 并 描述 其 功能 。 


O Q + U Ne 


Wà 


wi 
> 


参考 文献 


[1] Spark 官方 文档 http://spark.apache.org/docs/latest/index.html. 

[2] TFR, $. Spark 核心 技术 与 高 级 应 用 [M]. 北京 : 机 械 工业 出 
版 社 ，2016. 

B] EX, 等 . Spark 最 佳 实践 [M]. 北京 : 人 民 邮 件 出 版 社 ，2016. 





Spark SQL 


Spark SQL 是 Spark 的 一 个 结构 化 数据 处 理 模块 ， 其 提供 了 分 布 式 
SQL 查询 引擎 和 结构 化 数据 编程 接口 DataFrame， 在 Spark 生态 系统 中 
处 于 访问 与 接口 层 。 在 Spark SQL 出 现 之 前 Spark 组 件 Shark 也 提供 结 
构 化 数据 SQL 查询 功能 ，Shark 是 伯克利 AMP 实验 室 对 Hive 的 改造 ， 
用 以 解决 Hive 背后 使 用 MapReduce 而 产生 的 执行 效率 问题 。Shark 将 
Hive 的 计算 引擎 MapReduce 替换 为 Spark 引擎 ， 使 得 SQL 查询 速度 得 
到 10~100 倍 的 提升 。 但 由 于 Shark 对 Hive 依赖 较 多 , 制约 了 其 与 Spark 
各 组 件 的 集成 ， 而 Spark SQL 项 目 要 解决 Shark 遇 到 的 问题 ， 它 抛弃 了 
Shark 的 代码 ， 重 新 进行 了 开发 ， 同 时 汲取 了 Shark 的 优点 ， 直 接 基 于 
Spark 架构 实现 ， 效 率 比 Shark 有 所 提升 。Spark SQL 随 着 Spark1.3 版 
本 正式 发 布 成 为 Spark 中 处 理 结构 化 数据 的 最 佳 组 件 ， 而 Shark 项 目 也 
随 之 停止 更 新 。 

本 章 对 Spark SQL 进行 了 较为 系统 全 面 的 介绍 ， 内 容 包 括 Spark 
SQL 的 体系 架构 与 基本 原理 ,支持 的 SQL 语法 及 数据 类 型 ，Spark SQL 
CLI 的 基本 操作 ，Thrift JDBC/ODBC 的 搭建 等 。 通 过 本 章 的 学 习 和 实 
验 ， 读 者 可 以 熟悉 Spark SQL 的 配置 、 管 理 及 操作 使 用 的 全 过 程 。 


6.1 Spark SQL 简介 
6.1.1 Spark SQL 概览 


Spark SQL 提供 了 以 下 两 种 方式 来 处 理 结构 化 数据 。 
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1. 分 布 式 SQL 引擎 


外 部 程序 以 分 布 式 SQL 引擎 的 方式 使 用 Spark SQL 处 理 结构 化 数 
据 , 包括 标准 接口 JDBC/ODBC 和 命令 行 方式 两 种 方法 。 通 过 标准 接口 
JDBC/ODBC 可 以 让 第 三 方 软件 接 入 Spark, 使 用 SQL 查询 数据 , 如 图 6-1 
所 示 ， 而 命令 行 方式 则 为 数据 分 析 人 员 提 供 了 一 种 可 以 使 用 SQL 的 数 
据 查 询 分 析 工 具 ， 如 图 6-2 所 示 。 





数据 分 析 人 员 





6-2 ”通过 命令 行 接口 使 用 Spark SQL 
2. DataFrame 编程 接口 


使 用 Spark 处 理 结构 化 数据 的 另 一 种 方法 是 编写 Spark 程序 处 理 数 
据 ， 在 程序 中 调用 Spark SQL 提供 的 DataFrame 编程 接口 ， 如 图 6-3 所 
示 。DataFrame 编程 接口 支持 编程 语言 Scala、Java、Python ÑIR, HEt 
了 结构 化 数据 操作 方法 及 结构 化 的 分 布 式 数据 集 ， 同 时 还 支持 在 Spark 
程序 中 使 用 SQL 语言 操作 数据 ， 返 回 的 数据 封装 在 DataFrame 分 布 式 
数据 集中 ， 可 以 使 用 DataFrame API 对 其 进一步 操作 。 


Java/Scala/Python/R 


全 
N 
数据 


图 6-3 Spark 程序 使 用 DataFrame 编程 接口 


DataFrame 分 布 式 数据 集 是 Spark SQL 为 结构 化 数据 提供 的 数据 抽 
象 ， 和 第 5 章 介绍 的 分 布 式 弹性 数据 集 RDD) 类 似 ， 可 对 其 进行 函数 
式 操 作 (map,filter,select,groupby 等 )。 与 RDD 不 同 的 是 DataFrame R. 
有 数据 列 信息 , 与 关系 数据 库 中 的 表 很 像 , 可 以 较 好 地 表示 结构 化 信息 。 
DataFrame 数据 集 可 以 从 结构 化 数据 文件 (如 Json、Parquet 文件 )、Hive 


Spark SQL 





表 、 外 部 数据 库 、RDD 等 数据 源 转化 而 来 。 

DataFrame API 对 各 种 数据 源 的 支持 使 得 Spark SQL 可 以 处 理 各 种 类 
型 的 结构 化 数据 ,并 可 以 方便 地 增加 支持 新 类 型 的 结构 化 数据 ,如 图 6-4 
所 示 。 


DataFrame API 


JDBC PERSIE Ü) 


6-4 Spark SQL 数据 源 
6.1.2 Spark SQL 特性 


Spark SQL 具有 以 下 特性 。 
1. 5 Spark 程序 的 无 缝 集成 


可 以 在 Spark 程序 中 通过 SQL 语言 或 者 DataFrame API 使 用 Spark 
SQL 处 理 结 构 化 数据 ， 支 持 编程 语言 Java、Scala、Python 和 Ro 


2. 统一 的 数据 访问 方法 

DataFrame API 与 SQL 语言 一 样 提供 了 一 种 通用 的 方法 来 访问 各 种 
数据 源 ， 包 括 Hive、Parquet、JSON、JDBC 等 。 在 Spark SQL 中 甚至 
可 以 对 不 同类 型 的 数据 源 进行 连接 操作 。 

3. 兼容 Hive 


Hive 查询 可 以 不 修改 ,直接 到 Spark SQL 运行 .将 Hive 与 Spark SQL 
部 署 在 一 起 ,Spark SQL 便 可 以 兼容 Hive 的 数据 、 查 询 和 用 户 定义 函数 。 


4. 标准 的 访问 接口 


Spark SQL 提供 了 搭建 JDBC/ODBC 服务 器 的 方法 ， 即 提供 了 标准 
接口 以 供 第 三 方 软件 访问 。 


6.1.3 Spark SQL 架构 与 原理 


Spark SQL 架构 如 图 6-5 所 示 ，Spark SQL 接收 来 自 JDBC/ODBC、 
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命令 行 、Spark 程序 的 结构 化 数据 操作 请 求 ， 并 最 终 转 化 为 Spark 作业 
运行 。 其 中 JDBC/ODBC 和 命令 行使 用 SQL 语言 操作 数据 ， 而 Spark 
程序 使 用 DataFrame/DataSet API 操作 数据 ， 也 可 以 直接 使 用 RDD API 

(第 5 章 中 已 介绍 )。Spark SQL 主要 包括 了 两 个 组 件 : DataFrame/ 
DataSet API 和 Catalyst 优化 器 , DataFrame/DataSet API 提供 了 结构 化 数 
据 操 作 编 程 接口 ，Catalyst 优化 器 提供 了 解析 SQL 和 DataFrame 操作 、 
逻辑 执行 计划 的 分 析 与 优化 、 物 理 执行 计划 的 生成 与 选择 、 代 码 生 成 等 
功能 。 


会 会 行 Spark 程 序 
IDBG/ODBE 命 信行 ( Java/Scala/Python/R ) 
Spark SQL DataFrame/DataSet API 


Catalyst 优化 器 





6-5 Spark SQL 架构 


在 Spark SQL 中 结构 化 数据 操作 (SQL 或 DataFrame 操作 ) 不 会 立 
即 执行 ， 与 RDD 的 惰性 (Lazy) 计算 类 似 ， 只 有 在 要 求 数 据 输出 时 才 
会 执行 ,在 数据 操作 真正 执行 前 , 所 有 的 数据 操作 都 被 认为 是 执行 计划 。 
这 种 机 制 有 利于 进行 数据 操作 优化 ， 而 Catalyst 优化 器 是 优化 执行 计划 
的 核心 组 件 ， 其 执行 流程 如 图 6-6 所 示 。SQL 查询 或 者 DataFrame 操作 
被 Catalyst 解析 为 逻辑 执行 计划 ,逻辑 执行 计划 被 分 析 和 优化 后 生成 多 
个 物理 执行 计划 ，Catalyst 对 这 些 物理 执行 计划 进行 评估 并 选择 出 最 优 
方案 ， 最 终 依据 物理 执行 计划 生成 代码 并 在 Spark 平台 上 运行 。 


Catalyst 优 化 器 





图 6-6 Catalyst 优化 器 


Spark 版 本 1.3 中 引入 了 DataFrame API， 其 提供 了 分 布 式 数据 集 
DataFrame。 与 分 布 式 数据 集 RDD 相 比 ，DataFrame 在 内 存 中 使 用 了 高 
效 的 列 式 存储 方法 ， 不 使 用 JVM HÈ Cheap) 存放 数据 而 且 使 用 内 存 较 
少 。 但 是 DataFrame 的 操作 和 RDD 操作 差异 较 大 ，DataFrame 操作 面 





向 关系 查询 ， 可 以 使 用 Catalyst 优化 器 优化 。 在 Spark 版 本 2.0 中 又 引 
入 了 DataSet API, 其 提供 了 分 布 式 数据 集 Dataset, 目的 是 统一 RDD API 
与 DataFrame API. DataSet 数据 集 具 有 类 似 DataFrame 的 高 效 内 存 存 储 
方法 ， 并 具有 RDD API 和 DataFrame API 的 操作 方法 。DataSet API 只 
适用 于 Java 或 Scala 语言 ， 而 DataFrame API 适用 于 Java、Scala、Python 
和 R 语言 ， 故 DataFrame API 被 保留 了 下 来 。 在 Java EK Scala 中 DataSet 
API 完全 替代 了 DataFrame API, DataFrame 数据 集 是 一 种 DataSet 数据 
集 , 实际 操作 中 只 需 使 用 DataSet API, X 6-1 列 出 了 这 三 种 API 的 比较 。 


表 6-1 Spark API 比较 


RDD API DataFrame API DataSet API 


引入 版 本 Spark 1.3 Spark 2.0 
使 用 语言 Java/Scala/Python/R | Java/Scala 
内 存 存储 方法 列 式 存储 列 式 存储 
内 存 数据 是 否 使 

用 堆 (heap) A 

使 用 Catalyst 

优化 器 i E 
编译 期 类 型 

检查 不 支持 支持 








6.1.4 和 Hive 的 兼容 性 


Spark SQL 中 使 用 的 SQL 语法 基本 上 完全 兼容 HiveQL， 关 于 
HiveQL 的 语法 参考 第 4 章 的 介绍 。 
Spark SQL 支持 大 部 分 HiveQL， 有 具体 包括 以 下 几 方 面 。 
O Hive 查询 语句 ， 包 括 如 下 子 句 。 
SELECT 
GROUP BY 
ORDER BY 
CLUSTER BY 
SORT BY 
所 有 的 Hive 运算 符 。 
用 户 定义 函数 (UDF)。 
用 户 定义 聚合 函数 (UDAF)。 
用 户 定义 序列 化 格式 (SerDes)。 
窗口 函数 。 


+ * + + + 


DOODODD 





O “连接 (Joins)， 包 括 : 
+ JOIN 
+ {LEFTIRIGHTIFULL} OUTER JOIN 
+ LEFT SEMI JOIN 
+ CROSS JOIN 


Unions 


子 查询 


D 口 





Sampling 

Explain 

表 分 区 

View 

所 有 的 DDLO 函 数 
大 部 分 的 数据 类 型 ， 包 括 : 
TINYINT 
SMALLINT 
INT 

BIGINT 
BOOLEAN 
FLOAT 
DOUBLE 
STRING 
BINARY 
TIMESTAMP 
DATE 
ARRAY— 
MAP<> 

+ STRUCT<> 


DOOODODD 


+ + $ $ +$ +$ $ $ + + + + < 


+ SELECT col FROM ( SELECT a + b AS col from t1) t2 


有 一 些 实际 中 不 常用 的 Hive 特性 , Spark SQL 是 不 支持 的 , 如 Hive 


的 bucket Æ, UNION 类 型 、Unique join 等 。 
6.1.5 ”数据 类 型 


Spark SQL 支持 的 数据 类 型 如 下 。 
口 数值 类 型 


<+ ByteType 单字 节 有 符号 整数 


e 192 大 数据 
92 大 级 





ShortType ” 双 字 节 有 符号 整数 
IntegerType 4 字 节 有 符号 整数 
LongType 8 字 节 有 符号 整数 
FloatType 4 字 节 单 精度 浮 点 数 
DoubleType 8 字 节 双 精 度 浮 点 数 
DecimalType 任意 精度 有 符号 小 数 
口 字符 串 类 型 
仿 _ StringType FHE 
O ”二进制 类 型 
信 BinaryType 二 进 制 序列 
口 布尔 类 型 
信 ”BooleanType 布尔 值 
口 时 间 日 期 类 型 
+ TimestampType 包含 年 、 月 、 日 、 小 时 、 分 钟 、 秒 的 时 间 
信息 
信 DataType 包含 年 、 月 、 日 的 日 期 信息 
口 复合 类 型 
+ ArrayType(elementType, containsNull) 
由 elementType 构成 的 数组 类 型 ，containsNull 用 来 标明 是 
否 可 以 包含 空 值 。 
+ MapType(keyType, valueType, valueContainsNull) 
由 keyType 和 valueType 构成 的 键 值 对 类 型 ，valueContainsNull 
用 来 标明 值 是 否 可 以 包含 空 值 。 
% StructType(fields) 
由 一 组 字段 构成 的 结构 体 ， 字 段 定 义 方 法 为 StructField 
(name,dataType,nullable), name 为 字段 名 ，dataType 为 字 
段 类 型 ，nullable 标明 字段 值 是 否 可 以 为 空 。 


+ + * + + + 
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6.2.1 Spark SQL 配置 


在 使 用 Spark SQL 之 前 需要 配置 元 数据 库 与 表 数 据 的 位 置 , 默认 情 
况 下 元 数据 库 与 表 数 据 都 存放 在 启动 Spark SQL CLI (命令 行 ) 或 者 
JDBC 服务 器 的 本 地 磁盘 上 ， 这 适用 于 学 习 与 测试 。 而 在 实际 使 用 中 为 


了 充分 使 用 集群 资源 和 提高 数据 的 可 靠 性 ， 表 数据 选择 存放 在 HDFS 
上 ， 元 数据 选择 存放 在 MySQL 数据 库 中 。MySQL 是 可 靠 的 关系 数据 
库 ， 适 合 存储 元 数据 库 。 

本 章 所 用 的 Spark 环境 在 第 5 章 介 绍 的 Spark 与 Hadoop 混合 集群 
上 进一步 搭建 ， 加 入 MySQL 数据 库 和 Thrift JDBC/ODBC Server, 
MySQL 元 数据 库 在 实际 应 用 中 需要 独立 部 署 ， 这 里 选择 部 署 在 cloud2 
上 。Thrift JDBC/ODBC Server 在 实际 应 用 中 也 需要 独立 部 署 ， 为 了 接 
近 实 际 部 署 环境 , 把 它 部 署 到 cloud3 E, 与 MySQL 元 数据 库 的 部 署 分 
离 。 具 体 规 划 如 表 6-2 所 示 。 


表 6-2 Spark SQL 环境 
机 器 名 Spark 角色 Hadoop 角色 IP 地 址 
NameNode 
cloud1 Master SecondaryNameNode | 192.168.100.10 
ResourceManager 


clou Fa .168.100. 
MySQL 元 数据 库 NodeManager 
Slave DataNode 

cloud3 192.168.100.12 
Thrift JDBC/ODBC Server | NodeManager 


Spark SQL 配置 分 为 元 数据 库 搭建 、mysql-connector 配置 和 hive- 
site.xml 配置 三 个 步骤 。 


1. MySQL 元 数据 库 搭建 


(1) 准备 MySQL 数据 库 。 
在 第 5 章 中 使 用 了 cloudl, cloud2 和 cloud3 三 台 机 器 搭建 Hadoop 
与 Spark 混合 集群 ， 这 里 选择 cloud2 部 署 MySQL 数据 库 。MySQL 数 
据 库 在 不 同 版 本 Linux 上 的 部 署 方法 各 有 不 同 ， 此 处 不 再 详 述 。 可 以 参 
考 MySQL 的 官方 文档 ,例如 MySQL 5.6 版 本 的 Linux 安装 文档 可 访问 
如 下 网 址 : 
https://dev.mysql.com/doc/refman/5.6/en/linux-installation.html 
(2) 创建 数据 库 用 户 sparksql。 
使 用 root 用 户 启 动 MySQL， 命 令 如 下 : 


mysql --user=root -p 
启动 后 在 MySQL 命令 行 中 使 用 以 下 命令 创建 用 户 sparksql, 密码 


也 为 sparksql， 并 具有 对 hiveMetastore 数据 库 的 全 部 访问 权限 ,命令 
如 下 : 








grant all on hiveMetastore.* to 'sparksql'@'localhost' identified by 'sparksql'; 
grant all on hiveMetastore.* to 'sparksql'@'cloud1' identified by 'sparksql'; 
grant all on hiveMetastore.* to 'sparksql'@'cloud3' identified by 'sparksql'; 
flush privileges; 


(3) 创建 元 数据 库 hiveMetastore 
在 MySQL 命令 行 中 使 用 以 下 命令 创建 元 数据 库 hiveMetastore: 


create database hiveMetastore; 


2. mysql-connector 配置 


(1) Fš mysql-connector-java-5.1.41-bin.jar。 

到 MySQL 官方 网 站 下 载 mysql-connector-java-5.1.41-bin.jar 文件 ， 
官网 地 址 为 https://dev.mysql.com/downloads/connector/j/5.1.html， 下 载 
后 将 此 文件 放 到 Spark 节点 的 /home/dtadmin 目录 下 。 

(2) 配置 conf/spark-env.sh。 

在 spark 配置 文件 spark-env.sh 中 增加 环境 变量 SPARK_CLASSPATH 

的 配置 ， 如 下 所 示 : 


export SPARK_CLASSPATH=\ 
$SPARK_CLASSPATH:/home/dtadmin/mysql-connector-java-5.1.41-bin. jar 


3. hive-site.xml 配置 
在 Spark conf 目录 下 新 建 hive-site.xml 文件 ， 内 容 如 下 : 


<?xml version="1.0"?> 
<?xml-stylesheet type="text/xsl" href="configuration.xsl"?> 
<configuration> 
<property> 
<name>hive.metastore.warehouse.dir</name> 
<value>hdfs://cloud1:9000/hive/warehouse</value> 
<description>location of database for the warehouse</description> 
</property> 
<property> 
<name>javax.jdo.option.ConnectionURL</name> 
<value>jdbc:mysql://192.168.100.11:3306/hiveMetastore</value> 
<description>JDBC connect string for a JDBC metastore</description> 
</property> 
<property> 
<name>javax.jdo.option.ConnectionDriverName</name> 
<value>com.mysql.jdbc.Driver</value> 
<description>Driver class name for a JDBC metastore</description> 


</property> 
<property> 
<name>javax.jdo.option.ConnectionUserName</name> 
<value>sparksql</value> 
<description>username to use against metastore database</description> 
</property> 
<property> 
<name>javax.jdo.option.ConnectionPassword</name> 
<value>sparksql</value> 
<description>password to use against metastore database</description> 
</property> 
<property> 
<name>javax.jdo.option.Multithreaded</name> 
<value>true</value> 
</property> 
</configuration> 
配置 文件 的 hive.metastore.warehouse.dir 属性 指定 了 表 数 据 存 于 
HDFS, 路 径 为 hdfs://cloud1:9000/hive/warehouse。 元 数据 库 使 用 MySQL 
数据 库 hiveMetaStore, 对 应 的 JDBC 连接 字符 串 为 jdbc:mysql://192.168. 
100.11:3306/hiveMetastore， 同 时 还 配置 了 数据 库 用 户 名 和 密码 。javax. 
jdo.option.Multithreaded 属性 设 为 true 表示 可 以 并 发 访问 元 数据 库 。 
配置 完成 后 需 重 新 启动 Spark， 登 录 到 Master 节点 cloudl 并 进入 
Spark 目录 ， 执 行 以 下 命令 重启 集群 : 
./sbin/stop-all.sh 
.sbin/start-all.sh 


至 此 Spark SQL 的 MySQL 元 数据 库 及 HDFS 存储 配置 完成 。 
6.2.2 Spark SQL CLI 


Spark SQL CLI 提供 了 命令 行 接口 使 用 SQL 语言 与 Spark SQL 交 
互 ， 其 使 用 Hive 元 数据 服务 并 以 本 地 模式 的 方式 运行 。 执 行 spark-sql 
命令 即 可 进入 Spark SQL CLI， 命 令 如 下 : 

cd ~/spark-2.1.0-bin-hadoop2.7 

-bin/spark-sql 

这 里 没有 指定 spark-sql 的 参数 , 后 台 启 动 的 Spark 程序 以 本 地 模式 
运行 。 可 通过 --master 参数 指定 Master URL， 以 集群 模式 运行 spark-sql 
后 台 程序 。 

启动 后 运行 界面 如 图 6-7 所 示 , 日 志 的 最 后 显示 了 Warehouse 位 置 





为 HDFS 目录 /hive/warehouse。 


17/08/05 01:27:23 : Created HDFS directory: /tmp/hive/dta 






HDFS directory: /tmp/hive/dta 


dmin/2c89b 4-9ee7-4 cbe5bcla579/_tmp_space.db 


17/08/05 01:27:24 ; Warehouse location for Hive client (v 
ersion 1.2.1) is hdfs://cloud1:9000/hive/warehouse 
spark-sql> 





6-7 Spark SQL CLI 启动 界面 


可 以 直接 在 命令 行 中 使 用 SQL 语言 操作 数据 ,下面 以 创建 数据 库 、 
创建 表 、 插 入 、 查 询 数据 等 操作 为 例 ， 列 出 常用 的 数据 库 操 作 。 


1. 创建 数据 库 
使 用 如 下 create database 语句 创建 数据 库 mytestdb: 


create database mytestdb; 


2. 查看 数据 库 
使 用 show databases 语句 查看 系统 中 的 数据 库 : 
show databases; 


输出 结果 如 图 6-8 所 示 ， 显 示 了 两 个 数据 库 : default 和 mytestdb， 
default 数据 库 为 系统 默认 数据 库 。 


default 
mytestdb 
Time taken: 7.364 seconds, Fetched 2 row(s) 


6-8 show databases 语句 输出 
3. 指定 当前 数据 库 
使 用 如 下 use 语句 指定 当前 数据 库 为 mytestdb: 


use mytestdb; 


4. 创建 表 


使 用 如 下 create table 语句 创建 表 test_tbl， 此 表 有 三 个 字段 : int 类 
型 的 字段 id、string 类 型 的 字段 name、int 类 型 的 字段 value。 


create table test_tbl(id int, name string, value int); 


5. 查看 表 定义 
使 用 如 下 desc 命令 查看 表 test_tbl 的 定义 : 


desc test_tbl; 


test 





输出 结果 如 图 6-9 所 示 。 


id int NULL 
name string NULL 
value int NULL 


Time taken: 0.821 seconds, Fetched 3 row(s) 
图 6-9 desc 命令 输出 
6. 列 出 当前 数据 库 中 的 表 
使 用 show tables 语句 查看 当前 数据 库 中 的 所 有 表 : 


show tables; 


输出 结果 如 图 6-10 所 示 ， 显 示 了 数据 库 mytestdb 中 刚 建 好 的 表 
tbls 


mytestdb test_tbl false 
Time taken: 0.225 seconds, Fetched 1 row(s) 


Æ 6-10 show tables 语句 输出 

7. 插入 数据 
使 用 如 下 insert into table 语句 插入 两 条 数据 : 
insert into table test_tbl values(0,"blue",10); 
insert into table test_tbl values(1,"red",20); 
8. 查询 数据 
使 用 select 语句 查询 数据 。 

(1) 查询 所 有 数据 
select * from test_tbl; 


输出 结果 如 图 6-11 所 示 。 


0 blue 10 
1 red 20 


图 6-11 select 所 有 数据 输出 
(2) 条 件 查询 
select * from test_tbl where value>15; 


输出 结果 如 图 6-12 所 示 。 


1 red 20 
Time taken: 1.444 seconds, Fetched 1 row(s) 


图 6-12 select 部 分 数据 输出 


9. 删除 表 
使 用 如 下 drop table 语句 删除 表 : 


drop table test_tbl; 


10. 删除 数据 库 


使 用 如 下 drop database 语句 删除 数据 库 ( 仅 当 该 库 中 所 有 表 都 被 删 
除 后 才能 操作 成 功 ): 


drop database mytestdb; 


6.2.3 Thrift JDBC/ODBC Server 的 搭建 与 测试 


1. 启动 Thrift JDBC/ODBC Server 


在 Spark SQL 环境 的 规划 中 ，Thrift JDBC/ODBC Server 部 署 在 
cloud3 上 。 登 录 cloud3, 进入 Spark 目录 后 执行 以 下 命令 即 可 启动 Thrift 
JDBC/ODBC server: 


.sbin/start-thriftserver.sh 


执行 命令 后 启动 界面 如 图 6-13 所 示 。 


[dtadmin@cloud3 spark-2.1.0-bin-hadoop2.7]$ ./sbin/start- 
thriftserver.sh 

starting org.apache.spark.sql.hive.thriftserver.HiveThrif 
tServer2, logging to /home/dtadmin/spark-2.1.0-bin-hadoop 
2.7/1ogs/spark-dtadmin-org.apache.spark.sql.hive.thriftse 
rver.HiveThriftServer2-1-cloud3.out 


6-13 执行 Thrift JDBC/ODBC Server 启动 脚本 


启动 脚本 输出 日 志 路 径 后 便 退 出 ， 按 照 日 志 路 径 查 看 日 志 ， 如 图 6-14 
所 示 ， 日 志 中 显示 “HiveThriftServer2 started”， 表 明 启动 成 功 。 

17/08/05 02:38:10 INFO service.AbstractService: Service:T 
hriftBinaryCLIService is started. 

17/08/05 02:38:10 INFO service.AbstractService: Service:H 
iveServer2 is started. 

17/08/05 02:38:10 INFO thriftserver.HiveThriftServer2: Hi 
veThriftServer2 started a 


图 6-14 Thrift JDBC/ODBC Server 启动 日 志 
此 时 使 用 jps 查看 Java 进程 ， 如 图 6-15 所 示 。 可 以 看 到 进程 ID 为 
7588 的 SparkSubmit 进程 ， 此 进程 即 为 Thrift JDBC/ODBC Server 的 后 
台 进 程 。 
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dtadmin@cloud3 spark-2.1.0-bin-hadoop2.7]$ jps 
588 SparkSubmit 


2934 NodeManager 
7865 Jps 

2810 DataNode 
5647 Worker 





6-15 ”使 用 jps 命令 查看 Java 进程 


Thrift JDBC/ODBC Server 默认 情况 下 使 用 端口 号 10000, 可 以 使 用 
netstat 命令 netstat -ntap|grep 7558 (7558 为 jps 命令 查 到 的 进程 ID) 查 
看 ， 如 图 6-16 所 示 。 


[dtadmin@cloud3 spark-2.1.0-bin-hadoop2.7]$ netstat -ntaplgrep 7588 
(Not all processes could be identified, non-owned process info 
will not be shown, you would have to be root to see it all.) 


tcp6 0 0 192.168.100.12:34893 ::: LISTEN 














* 
tcp6 0 0 :::10000 Td LISTEN 

tcp6 0 0 192.168.100.12:45303 :::* LISTEN 

tcp6 0 0 :::4040 sast LISTEN 3 
tcp6 0 0 192.168.100.12:45800 192.168.100.11:3306 ESTABLISHED7588/java 


图 6-16 ”使 用 netstat 命令 查看 Thrift JDBC/ODBC Server 使 用 的 端口 
可 以 使 用 命令 行 参数 修改 其 使 用 的 端口 和 主机 ，hive.server2.thriftport 
指定 其 绑 定 的 端口 号 ，hive.server2.thriftbind.host 指定 其 绑 定 的 主机 ， 
命令 如 下 : 


./sbin/start-thriftserver.sh X 

—hiveconf hive.server2 thrift.port=<listening-port> \ 
—hiveconf hive.server2 thrift.bind.host=<listening-host> V 
--master <master-uri> 


2. 使 用 Beeline 测试 Thrift JDBC/ODBC Server 


Beeline 是 HiveServer2 提供 的 命令 行 工具 ,作为 JDBC 客户 端 使 用 。 
使 用 Beeline 可 以 测试 Thrift JDBC/ODBC Server, 可 以 在 任意 一 台 Spark 
节点 上 启动 Beeline。 选 择 登 录 到 cloud1， 进 入 Spark 目录 后 执行 以 下 
命令 启动 : 


./bin/beeline 


启动 后 在 Beeline 命令 行 中 执行 以 下 命令 连接 Thrift JDBC/ODBC 
Server: 
Iconnect jdbc:hive2://cloud3:10000 


Beeline 命令 行 要 求 输入 用 户 名 和 密码 ， 可 以 选择 不 提供 ， 直 接 按 
Enter 键 即 可 。 如 图 6-17 所 示 。 


199 = 


e— 200 大 数据 实践 一 


beeline> !connect jdbc:hive2://cloud3:10000 

Connecting to jdbc:hive2://cloud3:10000 

Enter username for jdbc:hive2://cloud3:10000: 

Enter password for jdbc:hive2://cloud3:10000: 

17/08/05 02:56:55 : Supplied authorities: cloud3:10000 
17/08/05 02:56:55 : Resolved authority: cloud3:10000 
17/08/05 02:56:56 : Will try to open client transport wit 
h JDBC Uri: jdbc:hive2://cloud3:10000 

Connected to: Spark SQL (version 2.1.0) 

Driver: Hive JDBC (version 1.2.1.spark2) 

Transaction isolation: TRANSACTION_REPEATABLE_READ 

0: jdbc:hive2://cloud3:10000> 


6-17 ”使 用 Beeline 连接 Thrift JDBC/ODBC Server 
接 下 来 便 可 以 使 用 SQL 语句 操作 数据 ， 这 里 列举 几 个 常用 的 SQL 


查询 。 


(1) 查看 数据 库 。 使 用 show database 列 出 所 有 的 数据 库 ， 如 图 6-18 


所 示 。 


中 的 


0: jdbc:hive2://cloud3:10000> show databases; 
+--------------- +--+ 

| databaseName | 
+--------------- + 
| default I 
| mytestdb I 
+------- + 


6-18 使 用 show databases 列 出 所 有 数据 库 
(2) 指定 当前 数据 库 。 使 用 如 下 use 语句 指定 当前 数据 库 为 mytestdb: 
use mytestdb; 


(3) 查看 当前 数据 库 中 的 表 。 使 用 show tables 语句 列 出 当前 数据 


所 有 表 ， 如 图 6-19 所 示 。 
0: jdbc:hive2://cloud3:10000> show tables; 
+----------- +------------ +-------------- +--+ 
| database | tableName | isTemporary | 
+----------- +------------ +-------------- +--+ 
| mytestdb | test tbl | false 1 
+----------- +------------ +-------------- +--+ 


1 row selected (0.315 seconds) 
0: jdbc:hive2://cloud3:10000> 


Æ 6-19 使 用 show tables 列 出 当前 数据 库 中 所 有 表 
(4) 查询 数据 。 查 询 test_tbl 表 中 的 所 有 数据 ， 如 图 6-20 所 示 。 


0: jdbc:hive2://cloud3:10000> select * from test tbl; 
+----- +------- +-------- +--+ 


1 id | name | value | 





2 rows selected (3.618 seconds) 
0: jdbc:hive2://cloud3:10000> 


图 6-20 查询 test tbl 表 中 所 有 数据 





Spark SQL 


由 于 元 数据 库 配置 在 MySQL 中 ， 数 据 库 表 数 据 存放 在 HDFS 中 ， 
Beeline 查询 到 的 数据 库 、 表 都 与 Spark SQL CLI 查 到 的 一 致 。 至 此 
Beeline 测试 通过 ，Thrift JDBC/ODCB Server 搭建 成 功 ， 第 三 方 软件 可 
以 通过 JDBC/ODBC 接口 连 入 Spark SQL 。 


6.3 ”使 用 DataFrame API 处 理 结构 化 数据 


在 使 用 DataFrame API 处 理 数据 前 先 准备 好 测试 数据 , 以 json 文件 
为 例 。 这 里 的 json 文件 的 格式 和 普通 的 json 文件 格式 稍 有 不 同 ， 文 件 
中 的 一 行为 一 个 完整 的 json 对象， 数据 和 格式 如 图 6-21 所 示 。 


id":1,"colorValue":20," 
ia" 


":"fruit apple"} 
":"fruit blueberry"} 
":"fruit grape"} 
"vegetables_radish"} 
"vegetables greens"} 
:"vegetables_cucumber"} 


:2,"colorValue":10," 
:3,"colorValue":20," 
:4,"colorValue":10," 
"colorValue":30," 
"colorValue":30," 





(" 
(" 
t 
{ 
{ 





6-21 json 测试 数据 
把 上 述 json 文件 testjson 上 传 到 HDFS/testdata 目录 ， 使 用 命令 如 下 : 


export HADOOP_HOME=~/hadoop-2.7.3 
$HADOOP_HOME/bin/hadoop fs -put .ltestjson /testdata/ 


在 第 五 章 中 介绍 过 Spark Shell 的 使 用 ，Spark Shell 适用 于 学 习 
Spark API, 这 里 选择 用 Spark Shell 演示 DataFrame API 的 使 用 。 具体 步 
又 如 下 : 

(1) 启动 Spark Shell。 登 录 到 cloudl, HA Spark 目录 后 执行 如 
下 命令 启动 : 


.bin/spark-shell 


启动 界面 如 图 6-22 所 示 ，Spark Shell 已 创建 好 一 个 名 为 “spark” 
的 Spark session 对 象 ， 后 续 可 以 直接 使 用 。 


Spark session available as 'spark'. 
Welcome to 





= 
/\_e_/_/ /_/\__ version 2.1.0 


Using Scala version 2.11.8 (Java HotSpot (TM) 64-Bit Server WM, 
Java 1.8.0_121) 

Type in expressions to have them evaluated. 

Type :help for more information. 


6-22 Spark Shell 启动 界面 
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(2) 读 取 json 文件 。 使 用 Spark session 对 象 读 取 HDFS 上 的 json 
文件 ， 如 图 6-23 所 示 。HDFS 文件 路 径 为 /testdata/testjson， 返 回 


DataFrame 对 象 df json。 


scala> val df_json=spark.read.json("HDFS://cloud1:9000/te 
stdata/test.json") 

df_json: org.apache.spark.sql.DataFrame = [colorValue: bi 
gint, id: bigint ... 1 more field] 


6-23 ”使 用 Spark session 对 象 读 取 HDFS 文件 


使 用 printSchema() 函 数 输出 结构 化 信息 ， 可 以 看 到 列 名 和 类 型 信 
息 ， 如 图 6-24 所 示 。 


scala> df_json.printSchema () 

root 
1-- colorValue: long (nullable = true) 
1-- id: long (nullable = true) 
1-- name: string (nullable = true) 


6-24 查看 schema 信息 


G) 过 滤 选 择 数据 。DataFrame 的 过 滤 方 法 与 RDD 的 过 滤 类 似 ， 
都 使 用 filter0 函 数 。 但 是 filter0 函 数 的 参数 却 有 不 同 ，DataFrame 中 
filterO 函 数 的 参数 与 SQL 中 的 where 操作 类 似 ， 如 filter($"value">10) 
与 SQL 中 的 where value>10 等 价 。 

在 本 例 中 有 两 个 过 滤 : 选择 colorValue 字段 等 于 10 和 name 字段 以 
fruit 为 前 缀 的 记录 。 执 行 代码 如 下 : 


val df_a = df_json.filter($"colorValue"===10) # 选 择 colorValue 等 于 10 
val df_b = df_a filter($"name".startsWith("fruit")) # 选 择 name 以 fruit 开始 


执行 结果 如 图 6-25 所 示 。 
scala> val df a = df json.filter($"colorValue"===10) 
df a: org.apache.spark.sql.Dataset [org.apache.spark.sql.R 
ow] = [colorValue: bigint, id: bigint ... 1 more field] 
scala> val df b = df a.filter($"name".startsWith("fruit") 


) 
df b: org.apache.spark.sql.Dataset [org.apache.spark.sql.R 
ow] = [colorValue: bigint, id: bigint ... 1 more field] 


图 6-25 对 DataFrame 执行 filter() 操 作 


(4) 选择 字段 。 选 择 字段 操作 是 通过 DataFrame 对 象 的 select) K 
数 实现 的 ， 函数 参数 为 选择 的 字段 。 选择 name 字段 和 colorValue 字段 ， 
代码 如 下 : 
val df_ final = df_b.select("name","colorValue") 


执行 结果 如 图 6-26 所 示 。 
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scala> val df final = df b.select("name","colorValue") 
df_final: org.apache.spark.sql.DataFrame = [name: string, 
colorValue: bigint] 
6-26 ”对 DataFrame 执行 select() 操 作 
(5) 输出 结果 。 使 用 DataFrame 的 show0) 函 数 可 以 输出 数据 。 
DataFrame 的 数据 处 理 方法 与 RDD 计算 类 似 ， 都 通过 惰性 (Lazy) 计 
算得 出 最 终结 果 。 与 RDD 行动 操作 一 样 ， 执 行 DataFrame 的 数据 输出 
函数 才 会 执行 之 前 定义 的 数据 操作 。 这 里 在 执行 showO 函 数 前 ， 先 打开 
Spark Shell 的 Web 界面 ， 查 看 Spark SQL 查询 状态 。 访 问 如 下 URL: 
http://cloud1:4040/SQL/， 如 图 6-27 所 示 ， 可 以 看 到 没有 Spark SQL # 
询 运 行 过 。 
spä Sa Spark shell application UI 


Jobs Stages Storage Environment Executors SQL 


SQL 
图 6-27 执行 show() 函 数 前 查看 Spark SQL 查询 状态 


执行 show0 函 数 ， 命 令 如 下 : 


df_final.show() 


Spark Shell 输出 结果 如 图 6-28 所 示 。 


scala> df_final.show() 





+ 
Ifruit_blueberryl 
+-——--- +---------- + 


6-28 执行 show() 函 数 输出 结果 


(6) ## Spark SQL 查询 状态 。 在 输出 结果 后 通过 Spark Shell Web 
界面 查看 Spark SQL 查询 状态 ， 此 时 在 “Completed Queries” 列 表 中 有 
一 个 完成 的 查询 ， 如 图 6-29 所 示 。 


Jobs Stages Storage Environment Executors SQL 
Completed Queries 
ID Description Submitted Duration Jobs 
0 show at <console>:32 +details 2017/04/01 11:04:58 4s 1 


图 6-29 执行 show() 函 数 后 查看 Spark SQL 查询 状态 
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单 击 此 查询 查看 详细 信息 ， 可 以 看 到 DataFrame 的 转换 操作 流程 ， 
如 图 6-30 所 示 。 首 先 读 取 json 文件 创建 DataFrame， 然 后 进行 filter() 
操作 和 选择 操作 〈project)， 最 后 收集 数据 输出 。 继 续 单 击 “Details” 
可 以 进一步 查看 Spark SQL 中 的 Catalyst 组 件 分 析 、 优 化 过 的 逻辑 计划 
及 最 终 执行 的 物理 计划 等 信息 。 

Details for Query 0 
Submitted Time: 2017/04/01 11:04:58 


Duration: 4 s 
Succeeded Jobs: 1 





6-30 DataFrame 转换 流程 


解析 后 的 逻辑 计划 如 图 6-31 AR, BER A EHE y RA. 
位 于 最 下 方 的 Relation[colorValue#0L,id#1L,name#2] json 代表 了 从 json 
文件 创建 的 数据 集 ， 依 次 经 过 两 次 Filter 操作 和 Project (选择 字段 ) 操 
作 ， 最 终 得 到 结果 。 
== Parsed Logical Plan == 
GlobalLimit 21 
+- LocalLimit 21 
+- Project [name#2, colorValue#@L] 
+- Filter StartsWith(name#2, fruit) 
+- Filter (colorValue#@L = cast(10 as bigint)) 
+- Relation[colorValue#@L,id#1L,name#2] json 


图 6-31 解析 后 的 逻辑 计划 
经 过 Catalyst 分 析 的 逻辑 计划 如 图 6-32 所 示 , 这 里 给 出 了 name F 
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段 与 colorValue 字段 的 类 型 。 


== Analyzed Logical Plan == 








name: string, colorValue: bigint | 
GlobalLimit 21 
+- LocalLimit 21 
+- Project [name#2, colorValue#0L] 
+- Filter StartsWith(name#2, fruit) 
+- Filter (colorValue#@L = cast(10 as bigint)) 
+- Relation[colorValue#0L ,id#1L ,name#2] json 





6-32 分析 后 的 逻辑 计划 


优化 的 逻辑 计划 如 图 6-33 所 示 ， 可 以 看 出 这 里 把 两 次 Filter0 操 作 
合并 为 一 次 Filter 操作 , 减少 了 一 次 DataFrame 转换 , 优化 了 DataFrame 
操作 。 


== Optimized Logical Plan == 
GlobalLimit 21 
+- LocalLimit 21 
+- Project [name#2, colorValue#@L] 
+- Filter ((isnotnull(colorValue#@L) && (colorValue#@L = 10)) && StartsWith(name#2, 
fruit)) 
+- Relation[colorValue#@L,id#1L,name#2] json 














6-33 ”优化 的 逻辑 计划 


最 后 的 物理 计划 如 图 6-34 所 示 ， 物 理 计划 中 包含 了 操作 的 详细 信 
息 ， 可 以 生成 代码 执行 。 


== Physical Plan == 
CollectLimit 21 
+- *Project [name#2, colorValue#0L] 

+- *Filter ((isnotnull(colorValue#@L) 8&& (colorValue#0L = 10)) && StartsWith(name#2 
fruit)) 

+- *FileScan json [colorValue#9L,name#2] Batched: false, Format: JSON, Location: 

InMemoryFileIndex[HDFS://cloud1:9000/testdata/test.json], PartitionFilters: [], 
PushedFilters: [IsNotNull(colorValue), EqualTo(colorValue,10), 
StringStartsWith(name,fruit)], ReadSchema: struct<colorValue:bigint,name:string> 


6-34 ”物理 计划 


至 此 完成 了 DataFrame API 对 结构 化 数据 json 文件 的 操作 , 通过 这 
个 过 程 ， 读 者 可 以 了 解 DataFrame API 处 理 结构 化 数据 的 方法 、 步 骤 以 
及 Catalyst 组 件 对 结构 化 操作 的 优化 步骤 和 原理 。 


实验 5 Thrift JDBC/ODBC Server 的 搭建 与 测试 
实验 目的 


本 实验 的 目的 如 下 : 
口 掌握 Spark SQL 体系 架构 。 


205 一 





O 掌握 Thrift JDBC/ODBC Server 部 署 配置 步骤 。 
O 掌握 使 用 Beeline 测试 Thrift JDBC/ODBC Server 的 方法 。 





实验 要 求 


本 实验 的 要 求 如 下 : 

口 配置 MySQL 为 Spark SQL 的 元 数据 库 。 

O 配置 HDFS 为 Spark SQL 的 数据 存储 。 

O 使 用 Beeline 连接 Thrift JDBC/ODBC Server. 
O 运行 SQL 语句， 测试 Spark SQL 的 功能 。 





实验 步骤 


本 实验 步骤 如 下 (在 Spark 与 Hadoop 混合 集群 的 基础 上 配置 ): 
(1) 安装 MySQL 数据 库 。 
(2) 创建 数据 库 用 户 sparksql 并 授权 。 
(3) 创建 元 数据 库 hiveMetaStore。 
(4) 配置 mysql-connector。 
(5) 配置 hive-site.xml 文 件 。 
(6) 启动 Thrift JDBC/ODBC Server. 
(7) 使 用 Beeline 连接 Thrift JDBC/ODBC Server. 


(8) 使 用 show databases, use <db>, show tables, desc <table> 4# 
SQL 语句 测试 Spark SQL 的 功能 。 


习题 6 


Spark SQL 作为 分 布 式 SQL 引擎 有 哪 几 种 使 用 方法 ? 
Spark SQL 中 的 DataFrame 与 RDD 有 何 区 别 ? 

. DataSet API 与 DataFrame API 的 区 别 是 什么 ? 
DataFrame API 支持 哪些 数据 源 ? 请 列举 3 个 。 
.Catalyst 优化 器 对 DataFrame 操作 优化 吗 ? 

. Catalyst 如 何 优 化 逻辑 执行 计划 ? 请 举例 说 明 。 

Spark SQL CLI 的 元 数据 库 和 数据 默认 情况 下 分 别 存 放 在 什么 地 方 ? 


y ON A + QÓ NN 一 
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大 数据 和 人 工 智能 实验 环境 


1. 大 数据 实验 环境 


一 方面 ， 大 数据 实验 环境 安装 、 配 置 难度 大 ， 高 校 难 以 为 每 个 学 生 
提供 实验 集群 ,实验 环境 容易 被 破坏 ; 另 一 方面 ， 实 用 型 大 数据 人 才 培 
养 面临 实验 内 容 不 成 体系 、 课 程 教材 缺失 、 考 试 系统 不 客观 、 缺 少 实 训 
项 目 以 及 专业 师资 不 足 等 问题 ， 实 验 开展 束 手 束 脚 。 

大 数据 实验 平台 (bd.cstorcn) 可 提供 便捷 实用 的 在 线 大 数据 实验 
服务 。 同 步 提供 实验 环境 、 实 验 课 程 、 教 学 视频 等 ， 帮 助 轻松 开展 大 数 
据 教学 与 实验 。 在 大 数据 实验 平台 上 , 用户 可 以 根据 学 习 基础 及 时 间 条 
件 ， 灵 活 安 排 3 一 7 天 的 学 习 计划 ， 进 行 自 主 学 习 。 大 数据 实验 平台 1.0 
界面 如 图 A-1 所 示 。 





图 A-1 大 数据 实验 平台 1.0 界面 





作为 一 站 式 的 大 数据 综合 实 训 平 台 , 大 数据 实验 平台 同步 提供 实验 
环境 、 实 验 课程 、 教 学 视频 等 ， 方 便 轻松 开展 大 数据 教学 与 实验 。 平 台 
基于 Docker 容器 技术 ， 可 以 瞬间 创建 随时 运行 的 实验 环境 ， 虚 拟 出 大 
量 实验 集群 , 方便 上 百 用 户 同 时 使 用 。 通 过 采用 Kubernates 容器 编排 架 
构 管理 集群 ,用 户 实验 集群 隔离 、 互 不 干扰 , 并 可 按 需 配置 包含 Hadoop, 
HBase、Hive、Spark、Storm 等 组 件 的 集群 ， 或 利用 平台 提供 的 一 键 搭 
建 集群 功能 快速 搭建 。 

实验 内 容 涵盖 Hadoop 生态 、 大 数据 实战 原理 验证 、 综 合 应 用 、 自 
主 设计 及 创新 的 多 层次 实验 内 容 等 , 每 个 实验 呈现 详细 的 实验 目的 、 实 
验 内 容 、 实 验 原理 和 实验 流程 指导 。 实 验 课程 包括 36 个 Hadoop 生态 大 
数据 实验 和 6 个 真实 大 数据 实战 项 目 。 平 台 内 置 数据 挖掘 等 教学 实验 数 
据 ， 也 可 导入 高 校 各 学 科 数 据 进行 教学 、 科 研 ， 校 外 培训 机 构 同样 适用 。 

此 外 ， 如 果 学 校 需要 自己 搭建 专属 的 大 数据 实验 环境 ，BDRack 大 
数据 实验 一 体 机 (http://www.cstor.cn/proTextdetail 11007.html) 可 针对 
大 数据 实验 需求 提供 完善 的 使 用 环境 , 帮助 高 校 建设 搭建 私有 的 实验 环 


境 。 其 部 署 规划 如 图 A-2 所 示 。 
I 


PT 








s 


E Pi 
° u 
册 
) (857; 


个 大 数据 实验 | 





o 


G... 2s 
d > < 实验 数据 m (14 ala 
Æ A-2 BDRack 大 数据 实验 一 体 机 部 署 规划 


基于 容器 Docker 技术 , 大 数据 实验 一 体 机 采用 Mesos+ZooKeeper+ 
Mrathon 架构 管理 Docker 集群 。 实 验 时 , 系统 预先 针对 大 数据 实验 内 容 
构建 好 一 系列 基于 CentOS7 的 特定 容器 镜像 ， 通 过 Docker 在 集群 主机 
内 构建 容器 ,充分 利用 容器 资源 高 效 的 特点 , 为 每 个 使 用 平台 的 用 户 开 
辟 属 于 自己 完全 隔离 的 实验 环境 。 容 器 内 部 ,用 户 完全 可 以 像 使 用 Linux 
操作 系统 一 样 地 使 用 容器 ， 并 且 不 会 被 其 他 用 户 的 集群 造成 任何 影响 ， 
只 需 几 台 机 器 , 就 可 能 虚拟 出 能 够 支持 上 百 个 用 户 同时 使 用 的 隔离 集群 
环境 。 图 A-3 所 示 为 BDRack 大 数据 实验 一 体 机 系统 架构 。 
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A-3 BDRack 大 数据 实验 一 体 机 系统 架构 


硬件 方面 , 采用 cServer 机 架 式 服务 器 ， 其 英特尔 "至 强 * 处 理 器 ES 
产品 家 族 的 性 能 比 上 一 代 提 升 多 至 80%, 并 具备 更 出 色 的 能 源 效率 。 通 
过 英特尔 ES 家 族 系列 CPU 及 英特尔 服务 器 组 件 , 可 满足 扩展 IO 灵活 
度 、 最 大 化 内 存 容量 、 大 容量 存储 和 元 余 计 算 等 需求 ， 软 件 方面 ， 搭 载 
Docker 容器 云 可 实现 Hadoop、HBase、Ambari、HDFS、YARN、 
MapReduce、ZooKeeper、Spark、Storm、Hive、Pig、Oozie、Mahonut、 
Python、R 语言 等 绝 大 部 分 大 数据 实验 应 用 。 

大 数据 实验 一 体 机 集 实验 机 器 、 实 验 手 册 、 实 验 数据 以 及 实验 培训 
于 一 体 ,解决 怎么 开设 大 数据 实验 课程 、 需 要 做 什么 实验 、 怎 么 完成 实 
验 等 一 系列 根本 问题 。 提供 了 完整 的 大 数据 实验 体系 及 配套 资源 , 包含 
大 数据 教材 、 教 学 PPT、 实 验 手册 、 课 程 视频 、 实 验 环境 、 师 资 培训 等 
内 容 ， 涵 盖 面 较为 广泛 ， 通 过 发 挥 实验 设备 、 理 论 教材 、 实 验 手册 等 资 
源 的 合力 ， 大 幅度 降低 高 校 大 数据 课程 的 学 习 门 槛 ,满足 数据 存储 、 挖 
据 、 管 理 、 计 算 等 多 样 化 的 教学 科研 需求 。 具 体 的 规格 参数 表 如 表 A-1 
所 示 。 

















表 A-1 规格 参数 表 

配套 /型 号 标 准 型 增 强 型 
管理 节点 3 € 3 6 
处 理 节点 86 15 € 
上 机 人 数 60 人 150 人 

《大 数据 导论 》50 本 | 《大 数据 导论 》80 本 |《 大 数据 导论 》180 本 
实验 教材 |《 大 数据 实践 》50 本 |《 大 数据 实践 》80 本 |《 大 数据 实践 )180 本 

CEREM) PDF 版 | 《实战 手册 》PDF 版 | CEREM) PDF 版 
配套 PPT 有 有 
配套 视频 有 有 

提供 现场 实施 及 3 天 | 提供 现场 实施 及 5 天 | 提供 现场 实施 及 7 天 


免费 培训 





技术 培训 服务 


技术 培训 服务 





技术 培训 服务 
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大 数据 实验 一 体 机 在 1.0 版 本 基础 上 更 新 升级 到 最 新 的 2.0 版 本 实 
验 体系 ， 进 一 步 丰 富 了 实验 内 容 ， 实 验 课 程 数 量 新 增 至 85 个 。 同 时 ， 
实验 平台 优化 了 创建 环境 一 实验 操作 一 提交 报告 一 教师 打分 的 实验 流 
程 ， 新 增 了 具有 海量 题库 、 试 卷 生 成 、 在 线 考试 、 辅 助 评分 等 应 用 的 考 
试 系统 , 集成 了 上 传 数据 一 指定 列表 一 选择 算法 一 数据 展示 的 数据 挖掘 
及 可 视 化 工具 。 

在 实验 指导 方面 , 针对 各 项 实验 所 需 , 大 数据 实验 一 体 机 配套 了 一 
系列 包括 实验 目的 、 实 验 内 容 、 实 验 步骤 的 实验 手册 及 配套 高 清 视 频 课 
程 ,内 容 涵盖 大 数据 集群 环境 与 大 数据 核心 组 件 等 技术 前 沿 , 详尽 细致 
的 实验 操作 流程 可 帮助 用 户 解 决 大 数据 实验 门槛 所 限 。 具 体 来 说 ss 个 
实验 课程 包括 以 下 方面 。 

(1) 36 个 Hadoop 生态 大 数据 实验 。 

(2) 6 个 真实 大 数据 实战 项 目 。 

(3) 21 个 基于 Python 的 大 数据 实验 。 

(4) 18 个 基于 RR 语言 的 大 数据 实验 。 

(5) 4 个 Linux 基本 操作 辅助 实验 。 

整套 大 数据 系列 教材 的 全 部 实验 都 可 在 大 数据 实验 平台 上 远程 开 
展 ， 也 可 在 高 校 部 署 的 BDRack 大 数据 实验 一 体 机 上 本 地 开展 。 

作为 一 套 完整 的 大 数据 实验 平台 应 用 ，BDRack 大 数据 实验 一 体 机 
还 配套 了 实验 教材 、PPT 以 及 各 种 实验 数据 , 提供 使 用 培训 和 现场 服务 ， 
中 国 大 数据 〈thebigdata.cn)、 中 国 云 计算 〈chinacloud.cn)、 中 国 存储 
C chinastor.org ) 、 中 国 物 联网 ( netofthings.cn )、 中 国 智 慧 城市 
(smartcitychina.cn) 等 提供 全 线 支持 。 目 前 ，BDRack 大 数据 实验 一 体 
机 已 经 成 功 应 用 于 各 类 院 校 ， 国 家 “211 工程 ”重点 建设 高 校 代 表 有 郑 
州 大 学 等 ， 民 办 院 校 有 西京 学 院 等。 其 部 署 图 如 图 A-4 所 示 。 


2. 人 工 智能 实验 环境 


人 工 智 能 实验 一 直 难 以 开展 ,主要 有 两 方面 原因 。 一 方面 ,实验 环 
境 需要 提供 深度 学 习 计算 集群 ,支持 主流 深度 学 习 框架 ， 完 成 实验 环境 
的 快速 部 署 , 应 用 于 深度 学 习 模 型 训练 等 教学 实践 需求 ， 同 时 也 需要 支 
持 多 人 在 线 实验 。 另 一 方面 ， 人 工 智能 实验 面临 配置 难度 大 、 实 验 入 门 
难 、 缺 乏 实验 数据 等 难题 ， 在 实验 环境 、 应 用 教材 、 实 验 手 册 、 实 验 数 
据 、 技 术 支 持 等 多 方面 吸 须 支持 , 以 大 幅度 降低 人 工 智 能 课程 学 习 门 槛 ， 
满足 课程 设计 、 课 程 上 机 实验 、 实 习 实 训 、 科 研 训 练 等 多 方面 需求 ， 实 
现 教学 实验 效果 的 事半功倍 。 








AIRack 人 工 智 能 实验 平台 (http://www.cstor.cn/proTextdetail 12031.html) 
基于 Docker 容器 技术 ， 在 硬件 上 采用 GPU+CPU 混合 架构 ， 可 一 键 创 
建 实验 环境 ， 并 为 人 工 智 能 实验 学 习 提 供 一 站 式 服 务 。 其 实验 体系 架构 
如 图 A-5 所 示 。 
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Æ A-5 AlRack 人 工 智 能 实验 平台 实验 体系 架构 


实验 时 ， 系 统 预先 针对 人 工 智 能 实验 内 容 构建 好 基于 CentOS7 的 
特定 容器 镜像 ， 通 过 Docker 在 集群 主机 内 构建 容器 ， 开 辟 完 全 隔离 的 
实验 环境 , 实现 使 用 几 台 机 器 即 可 虚拟 出 大 量 实验 集群 以 满足 学 校 实 验 
室 的 使 用 需求 。 平台 采 用 Google 开源 的 容器 集群 管理 系统 Kubernetes， 


DHARE H> 












能 够 方便 地 管理 跨 机 器 运行 容器 化 的 应 用 ， 提 供应 用 部 署 、 维 护 、 扩 展 
机 制 等 功能 。 其 平台 架构 如 图 A-6 所 示 。 


Kubernetes 


container container container container container 


A-6 AlRack 人 工 智能 实验 平台 架构 


配套 实验 手册 包括 20 个 人 工 智 能 相关 实验 ， 实 验 基于 VGGNet、 
FCN, ResNet 等 图 像 分 类 模型 ， 应 用 Faster R-CNN, YOLO 等 优秀 检 
WER, 实现 分 类 、 识 别 、 检测、 语义 分 割 、 序 列 预测 等 人 工 智 能 任务 。 
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具体 的 实验 手册 大 纲 如 表 A-2 所 示 。 
表 A-2 实验 手册 大 纲 

序号 课程 名 称 课程 内 容 说 明 | 课时 | 培训 对 象 
基于 LeNet 模型 和 MNIST 数据 集 | a ，，、 

1 的 手写 数字 识别 理论 + 上 机 训练 教师 、 学 生 
基于 AlexNet 模型 和 CIFAR-10 数 | 、 

3 据 集 图 像 分 类 理论 + 上 机 训练 、 学 生 
基于 GoogleNet 模型 和 ImageNet | U. ，， 、 

3 数据 集 的 图 像 分 类 理论 + 上 机 训练 、 学 生 
基于 VGGNet 模型 和 CASIA WebFace | ，、 . 

4 数据 集 的 人 脸 识别 理论 + 上 机 训练 、 学 生 
基于 ResNet 模型 和 ImageNet 数据 

5 集 的 图 像 分 类 理论 + 上 机 训 、 学 生 
基于 MobileNet 模型 和 ImageNet | ”、 

6 数据 集 的 图 像 分 类 理论 + 上 机 训 、 学 生 
基于 DeepID 模型 和 CASIA WebFace 、 . 

7 数据 集 的 人 脸 验 证 理论 + 上 机 训 k 、 学 生 
基于 Faster R-CNN 模型 和 Pascal I 

8 VOC 数据 集 的 目标 检测 理论 + 上 机 训练 教师 、 学 生 
基于 FCN 模型 和 Sift Flow 数据 集 à š 

9 的 图 像 语 义 分 害 理论 + 上 机 训练 教师 、 学 生 

10_| 基于 R-FCN 模型 的 行人 检测 理论 + 上 机 训练 | 1.5 | 教师 、 学 生 
基于 YOLO 模型 和 COCO 数据 集 | ，、 

11 的 目标 检测 理论 + 上 机 训练 | 1.5 | 教师、 学 生 

A 基于 SSD 模型 和 ImageNet 数据 集 理论 + 上 机 训练 教师 、 学 生 





的 目标 检测 


课 程 名 称 





基于 YOLO2 模型 和 Pascal VOC 
数据 集 的 目标 检测 





基于 linear aan 的 PEET 


基于 RNN 模型 的 时 序 预测 理论 + 上 机 训练 





基于 LSTM 模型 的 文字 生成 理论 + 上 机 训练 





基于 LSTM 模型 的 英法 翻译 理论 + 上 机 训练 


基于 CNN Neural Style 模型 绘画 n š 


基于 CNN 模型 灰色 图 片 着 色 教师 、 








同时 , 平台 同步 提供 实验 代码 以 及 MNIST、CIFAR-10、ImageNet、 
CASIA WebFace、Pascal VOC、Sift Flow、COCO 等 训练 数据 集 ， 实 验 


数据 做 打包 处 理 ， 





表 A-3 AlRack 人 工 智能 实验 平台 硬件 配置 


以 便 开展 便捷 、 可 靠 的 人 工 智能 和 深度 学 习 应 用 。 
AIRack 人 工 智 能 实验 平台 硬件 配置 如 表 A-3 所 示 。 




















数 量 
2 
8 
[4soGBssD | o | 1 
4 
| iosop (型 号 可 选 )| o | 3 
AIRack 人 工 智能 实验 平台 集群 配置 如 表 A-4 所 示 。 
表 A-4 AlIRack 人 工 智能 实验 平台 集群 配置 
极 简 型 增强 型 
上 机 人 数 | 8 人 72 人 
服务 器 1 台 6 6 9 台 
交换 机 无 S5720-30C-SI | S5720-30C-SI | S5720-30C-SI 
CPU E5-2650V4 E5-2650V4 E5-2650V4 E5-2650V4 
人 1080P 1080P 1080P 1080P 
(型 号 可 选 》 (型 号 可 选 》 (型 号 可 选 ) (型 号 可 选 ) 
8*32GB DDR4 | 24*32GB DDR4 | 48*32GB DDR4 | 72*32GB DDR4 
ii RECC RECC RECC RECC 
SSD 1*480GB SSD |3*480GB SSD | 6*480GB SSD “| 9*480GB SSD 
硬盘 4*4TB SATA 36*4TB SATA 








在 人 工 智 能 实验 平台 之 外 ， 针 对 目前 全 国 各 大 高 校 相继 开启 深度 


学 习 相 关 课 程 ，DeepRack 深度 学 习 一 体 机 C http://www.cstor.cn/ 
proTextdetail 10766.html) 一 举 解决 了 深度 学 习 研究 环境 搭建 耗 时 、 硬 
件 条 件 要 求 高 等 种 种 问题 。 

凭借 过 硬 的 硬件 配置 , 深度 学 习 一 体 机 能 够 提供 最 大 每 秒 144 万 亿 
次 的 单 精 度 计算 能 力 , 满 配 时 相当 于 160 台 服 务 器 的 计算 能 力 。 考 虑 到 
实际 使 用 中 长 时 间 大 规模 的 运算 需要 ， 一 体 机 内 部 采用 了 专业 的 散热 、 
能 耗 设 计 ， 解 决 了 用 户 对 于 机 器 负荷 方面 的 忧虑 。 

一 体 机 中 部 署 有 TensorFlow, Caffe 等 主流 的 深度 学 习 开 源 框 架 ， 并 
提供 大 量 免费 图 片 数 据 ， 可 帮助 学 生 学 习 诸 如 图 像 识别 、 语 音 识别 和 语 
言 翻译 等 任务 。 利 用 一 体 机 中 的 基础 训练 数据 , 包括 MNIST、CIFAR-10、 
ImageNet 等 图 像 数 据 集 ， 也 可 以 满足 实验 与 模型 塑造 过 程 中 的 训练 数据 
需求 。 深 度 学 习 一 体 机 外 观 如 图 A-7 所 示 ， 服 务 器 内 部 如 图 A-8 所 示 。 





图 A-7 深度 学 习 一 体 机 外 观 图 A-8 深度 学 习 一 体 机 节点 内 部 
深度 学 习 一 体 机 服务 器 配置 参数 如 表 A-5 所 示 。 
RAS 服务 器 配置 参数 


经 济 型 标 准 型 增强 型 

CPU Dual E5-2620 V4 | Dual E5-2650 V4 Dual E5-2697 V4 

GPU Nvidia Titan X *4 Nvidia Tesla P100*4 | Nvidia Tesla P100*4 

m 240GB SSD+4T 企 800GB SSD+4T*7 企 
业 盘 Mt 业 盘 

内 存 64GB 256GB 


计算 节点 数 2 


3 4 
性 能 88 万 亿 次 / 秒 108 万 亿 次 / 秒 144 万 亿 次 / 秒 
a 


单 精度 浮 点 计算 
系统 软件 Caffe、TensorFlow 深度 学 习 软 件 、 样 例 程 序 ， 大 量 免 费 图 片 


数据 
是 否 支 持 分 布 式 是 
深度 学 习 系 统 
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此 外 , 对 于 构建 高 性 价 比 硬件 平台 的 个 性 化 的 AI 应 用 需求 , dServer 
人 工 智能 服务 器 (http:/www.cstor.cn/proTextdetail 12032.html) 采用 英 
特 尔 CPU+ 英 伟 达 GPU 的 混合 架构 ， 预 装 CentOS 操作 系统 ， 集 成 两 套 
行业 主流 开源 工具 软件 一 一 TensorFlow 和 Caffe， 同 时 提供 MNIST、 
CIFAR-10 等 训练 测试 数据 , 通过 多 类 型 的 软 硬 件 备 选 方案 以 及 高 性 能 、 
点 菜 式 的 解决 方案 , 方便 自由 选 配 及 定制 安全 可 靠 的 个 性 化 应 用 , 可 广 
泛 用 于 图 像 识别 、 语 音 识别 和 语言 翻译 等 AI 领域 。dServer 人 工 智能 服 
务 器 如 图 A-9 所 示 ， 配 置 参数 如 表 A-6 所 示 。 








A-9 dServer 人 工 智 能 服务 器 
表 A-6 dServer 人 工 智 能 服务 器 配置 参数 











配 = £ 数 
i Tesla P100, Tesla P4, Tesla P40, Tesla K80, Tesla M40, 
Tesla M10, Tesla M60, TITAN X, GeForce GTX 1080 
CPU Dual E5-2620 V4, Dual E5-2650 V4, Dual E5-2697 V4 
内 存 64GB/128GB/256GB 
系统 盘 120GB SSD/180GB SSD/240GB SSD 
数据 盘 2TB/3TB/4TB 
准 系统 7048GR-TR 
软件 TensorFlow,Caffe 
数据 ( 张 ) 车 牌 图 片 (100 万 /200 万 /500 F) , ImageNet (100 F) ， 


人 脸 图 片 数据 〈50 万 ) ， 环 保 数据 





目前 , dServer 人 工 智 能 服务 器 已 经 在 清华 大 学 车 联网 数据 云 平 台 、 
西安 科技 大 学 大 数据 深度 学 习 平台 、 湖 北 文理 学 院 大 数据 处 理 与 分 析 平 
台 等 项 目 中 部 署 使 用 。 其 中 ， 清 华 大 学 车 联网 数据 云 平 台 项 目 配置 如 
图 A-10 所 示 。 
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Oi 


名 称 深度 学 习 服务 器 











生产 厂家 南京 云 创 大 数据 科技 股份 有 限 公司 
主要 规格 cServer C1408G 
CPU: 2*E5-2630v4 GPU: 4*NVIDIA TITAN X 内 存 : 4*16G (64G) DDR4,2133MHz，RECC 
硬盘 : 5* 2.5"300GB 10K SAS [企业 级 ) 网 口 : 4 个 10/100/1000Mb 自 适应 以 太 网 口 
REXA 电源 : 200W 1+1 宛 余 电 源 计算 性 能 单个 节点 单 精 度 浮 点 计算 性 能 为 44 万 亿 次 / 秒 





B Caffo, TensorFlow 深 度 学 习 软 件 、 样 例 程序 ; 提供 MNIST、CIFAR-10 等 训练 测试 数据 ， 提 供 交通 卡 口 图 片 
数据 不 少 于 400 万 张 ， 环 境 在 线 数据 不 少 于 6 亿 条 





图 A-10 清华 大 学 车 联网 数据 云 平台 项 目 配置 


综 上 所 述 ， 大 数据 实验 平台 1.0 用 于 个 人 自学 大 数据 远程 做 实验 ; 
大 数据 实验 一 体 机 受到 各 大 高 校 青 睐 , 用 于 构建 各 大 学 自己 的 大 数据 实 
验 教学 平台 ， 使 得 大 量 学 生 可 同时 进行 大 数据 实验 ;AIRack 人 工 智能 
实验 平台 支持 众多 师 生 同时 在 线 进行 人 工 智能 实验 ，DeepRack 深度 学 
习 一 体 机 能 够 给 高 校 和 科研 机 构 构 建 一 个 开 箱 即 用 的 人 工 智 能 科研 环 
境 ，dServer 人 工 智 能 服务 器 可 直接 用 于 小 规模 AI 研究 ， 或 搭建 AI 科 
研 集群 。 


Hadoop 环境 要 求 


1. 硬件 要 求 


Hadoop 集群 需要 运行 几 十 、 几 百 甚至 上 千 个 节点 ， 选 择 匹 配 相应 
的 工作 负载 的 硬件 ， 能 在 保证 效率 的 同时 最 大 可 能 地 节省 成 本 。 

一 般 来 说 ，Datanode 的 推荐 规格 为 : 

O 4 个 磁盘 驱动 器 (1 一 4TB)。 

口 2 个 4 核 CPU (2~2.5GHz)。 

口 ”16 一 64GB 的 内 存 。 

O 千 兆 以 太 网 〈 存 储 密 度 越 大 ， 需 要 的 网 络 吞 吐 量 越 高 )。 

Namenode 的 推荐 规格 为 : 

O 8 一 12 个 磁盘 驱动 器 (1~4TB)。 

口 2 个 4/8 核 CPU (2~2.5GHz)。 

O 32—128GB 的 内 存 。 

O 千 兆 或 万 兆 以 太 网 。 

2. 操作 系统 要 求 

HDP 2.6.0 支持 的 操作 系统 版 本 如 表 B-1 所 示 。 

表 B-1 HDP 2.6.0 支持 的 操作 系统 版 本 


操作 系统 版 本 

CentOS 7.0/7.1/7.2 

CentOS 6.1/6.2/6.3/6.4/6.5/ 6.6/6.7/6.8 
Debian 7 








CentOS (64bit) 








Debian 


操作 系统 版 本 
Oracle 7.0/7.1/7.2 
Oracle 6.1/6.2/6.3/6.4/6.5/6.6/6.7/6.8 
RHEL 7.0/7.1/7.2 
RHEL 6.1/6.2/6.3/6.4/6.5/6.6/6.7/6.8 
(SLES) Entreprise Linux 12, SP2 
(SLES) Enterprise Linux 12, SP1 
(SLES) Enterprise Linux 11, SP4 
(SLES) Enterprise Linux 11, SP3 

Ubuntu (64bit) Ubuntu 16.04 (Xenial) 

Ubuntu 14.04 (Trusty) 


3. 浏览 器 要 求 
Ambari 是 基于 Web 的 Apache Hadoop 集群 的 供应 、 管 理 和 监控 工 
具 ， 需 要 浏览 器 的 支持 ， 支 持 的 浏览 器 版 本 如 表 B-2 所 示 。 
表 B-2 Ambari 2.5.0 支持 的 浏览 器 版 本 








Oracle (64bit) 








Red Hat (64bit) 








SUSE (64bit) 








SUSE (64bit) 











操作 系统 浏 览 器 
Chrome 56.0.2924/57.0.2987 

Linux = 

Firefox 51/52 

Chrome 56.0.2924/57.0.2987 
Mac OS X Firefox 51/52 

Safari 10.0.1/10.0.3 

Chrome 56.0.2924/57.0.2987 
Windows Edge 38 





Firefox 51.0.1/52.0 
Internet Explorer 10/11 








(1) Java 环境 要 求 
Hadoop 是 由 Java 实现 的 ， 需 要 Java 环境 支持 ， 支 持 的 JDK 版 本 
如 表 B-3 所 示 。 
表 B-3 HDP 2.6.0 支持 的 JDK 版 本 


JDK 版 本 
| JDK81 
ED | JDK7}, deprecated 
| JDK 8, 64bit (minimum JDK 1.8.0_77), default 


Oracl ERE 
TE JDK 7, 64bit (minimum JDK 1.7_67), deprecated 


(2) Python 环境 要 求 
Hadoop 的 Web 工具 ambari 是 基于 Python 语言 编写 的 ， 需 要 安装 
Python 环境 。HDP 2.6.0 支持 的 Python 版 本 为 2.6 及 以 上 。 














名 词 解释 


有 关 大 数据 的 一 些 名 词 解释 如 表 C-1 所 示 。 











表 C-1 名 词 解释 
名 词 解 释 
a Apache Ambari 是 一 种 基于 Web 的 工具 ， 支 持 Apache Hadoop 
集群 的 供应 、 管 理 和 监控 
Browser 网 页 浏览 器 ， 文 中 如 非特 指 ， 采 用 的 是 Google Chrome 浏览 器 
CAB 变更 咨询 委员 会 (Change Advisory Board) 
CCB 配置 控制 委员 会 (Configuration Control Board) 
CDH Cloudera Distribution Hadoop, E} Cloudera 公司 的 发 行 版 Hadoop 
配置 项 (Configuration Item) 是 指 要 在 配置 管理 控制 下 的 资产 、 
人 力 、 服 务 组 件 或 者 其 他 逻辑 资源 。 从 整个 服务 或 系统 来 说 ， 
Gi 包括 硬件 、 软 件 、 文 档 、 支 持 人 员 到 单独 软件 模块 或 硬件 组 件 
(CPU、 内 存 、SSD、 硬盘 等 )。 配置 项 需要 有 整个 生命 周期 ( 状 
态 ) 的 管理 和 追溯 HE) 
i Command Line Interface， 命 令 行 界面 ， 用 户 可 以 在 该 界面 输入 
命令 ， 对 系统 进行 操作 
配置 管理 ( Configuration Management)， 是 通过 技术 或 行政 手段 
CM 对 软件 产品 及 其 开发 过 程 和 生命 周期 进行 控制 、 规 范 的 一 系列 
措施 
配置 管理 数据 库 (Configuration Management Database )， 用 于 存 
CD 储 与 管理 企业 IT 架构 中 设备 的 各 种 配置 信息 , 它 与 所 有 服务 支 


持 和 服务 交付 流程 都 紧密 相 联 ， 支 持 这 些 流程 的 运转 、 发 挥 配 
置信 息 的 价值 ， 同 时 依赖 于 相关 流程 保证 数据 的 准确 性 





续 表 

















名 词 解 释 

CMS 配置 管理 系统 (Configuration Management System) 
拒绝 服务 (Denial of Service), DoS 攻击 是 通过 大 量 访 问 耗 尽 被 

DoS 攻击 对 象 的 资源 ， 让 目标 计算 机 或 网 络 无 法 提供 正常 的 服务 或 
资源 访问 ， 使 目标 系统 服务 系统 停止 响应 甚至 崩溃 

ECAB 紧急 变更 咨询 委员 会 (Emergency Change Advisory Board) 

Elastic Search | 一 个 基于 Lucene 的 搜索 服务 器 ， 常 用 于 日 志 分 析 

GUI 图 形 用户 界 面 (Graphical User Interface) 

Hadoop 一 个 由 Apache 基金 会 所 开发 的 分 布 式 系统 基础 架构 

Hbase HBase 是 一 个 分 布 式 的 、 面 向 列 的 开源 数据 库 

HDP Hortonworks Data Platform，Hortonworks 公司 的 Hadoop 平台 


ipai Cloudera 公司 主导 开发 的 新 型 查询 系统 ， 它 提供 SQL 语义 ， 能 
查询 存储 在 Hadoop 的 HDFS 和 HBase 中 的 PB 级 大 数据 

ISO2000 信息 技术 服务 管理 体系 标准 ， 是 面向 机 构 的 IT 服务 管理 标准 
IT 基础 架构 库 即 信息 技术 基础 架构 库 CITIL, Information 
Technology Infrastructure Library) 由 英国 政府 部 门 CCTA (Central 
Computing and Telecommunications Agency) 在 20 世纪 80 年 代 
末 制 订 , 现 由 英国 商务 部 OGC( Office of Government Commerce) 
负责 管理 ， 主 要 适用 于 IT 服务 管理 (ITSM)。ITIL 为 企业 的 IT 
服务 管理 实践 提供 了 一 个 客观 、 严 谨 、 可 量化 的 标准 和 规范 

Job 作业 ， 指 提交 到 Hadoop 大 数据 系统 中 运行 的 作业 
一 种 编程 模型 ， 用 于 大 规模 数据 集 (大 于 1TB) 的 并 行 运算 。 
HS “Map (映射 )” 和 “Reduce(〈 归 约 )”， 是 它们 的 主要 思想 ， 
都 是 从 函数 式 编程 语言 里 借 来 的 ， 还 有 从 矢量 编程 语言 里 借 来 
的 特性 。 它 极 大 地 方便 了 编程 人 员 在 不 会 分 布 式 并 行 编程 的 情 
m F, 将 自己 的 程序 运行 在 分 布 式 系 统 上 。 当前 的 软件 实现 是 
指定 一 个 Map〈 了 映射 ) 函数 ， 用 来 把 一 组 键 值 对 映射 成 一 组 新 
的 键 值 对 ， 指 定 并 发 的 Reduce (32) 函数 ， 用 来 保证 所 有 了 映 
射 的 键 值 对 中 的 每 一 个 共享 相同 的 键 组 
Master 主 节点 ， 指 构成 Hadoop 大 数据 系统 的 主 服 务 器 节点 
一 个 介 于 关系 数据 库 和 非 关 系数 据 库 之 间 的 产品 ， 是 非 关 系数 
据 库 当中 功能 最 丰富 ， 最 像 关系 数据 库 的 ， 支 持 的 数据 结构 非 


ITIL 


MapReduce 




















MongoDB 。 | 常 松散 ， 是 类 似 son 的 bson 格式 ， 因 此 可 以 存储 比较 复杂 的 数 
据 类 型 

MTTF Mean Time To Failure， 平 均 失效 前 时 间 

MTTR mean time to restoration， 平均 恢复 前 时 间 

NoSQL Not only SQL， 泛 指 非 关系 型 的 数据 库 

Network Time Protocol， 通 过 网 络 对 时 的 协议 ， 用 于 将 多 台 服 务 
器 的 时 间 保 持 一 致 








OTRS Open Technology Real Services， 一 种 工 单 管 理 软件 
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名 词 解 释 
PDCA 是 英语 单词 Plan (计划 )、Do (执行 )、Check (检查 ) 和 
PDCA Adjust 纠正) 的 第 一 个 字母 ， PDCA 循环 就 是 按照 这 样 的 顺序 
进行 质量 管理 ， 并 且 循 环 不 止 地 进行 下 去 的 科学 程序 
Redundant Arrays of Independent Disks， 磁 盘 阵 列 ， 磁 盘 阵 列 是 
RAID 由 很 多 价格 较 便宜 的 磁盘 ， 组 合成 一 个 容量 巨大 的 磁盘 组 ， 利 
用 个 别 磁盘 提供 数据 所 产生 的 加 成 效果 提升 整个 磁盘 系统 效能 
RPO Recovery Point Objective， 灾 备 切换 后 ， 数 据 丢 失 的 时 间 范 围 
RTO Recovery Time Objective， 业 务 从 中 断 到 恢复 正常 所 需要 的 时 间 
Slave 从 节点 ， 指 构成 Hadoop 大 数据 系统 的 从 服务 器 节点 
Spark 专 为 大 规模 数据 处 理 而 设计 的 快速 通用 的 计算 引擎 
一 款 开 源 的 工具 ， 主 要 用 于 在 Hadoop (Hive) 与 传统 的 数据 库 
(mysql. postgresql...) 间 进 行 数据 的 传递 ， 可 以 将 一 个 关系 型 
Soop 数据 库 ( 如 MySQL, Oracle, Postgres 等 ) 中 的 数据 导入 到 Hadoop 
的 HDFS 中 ， 也 可 以 将 HDFS 的 数据 导入 到 关系 型 数据 库 中 
N Shell， 专 为 远程 登录 会 话 和 其 他 网 络 服务 提供 安全 性 的 
议 
Storm 一 个 分 布 式 的 、 可 靠 的、 容错 的 数据 流 处 理 系统 
Task 任务 ， 指 hadoop 作业 中 分 解 出 来 执行 的 任务 
Tivoli IBM 公司 为 运 维 管理 开发 的 软件 产品 
Yarn Yet Another Resource Negotiator, 一 种 新 的 Hadoop 资源 管理 器 
一 个 分 布 式 的 ,开放 源码 的 分 布 式 应 用 程序 协调 服务 ,是 Google 
Zee 的 Chubby 中 一 个 开源 的 实现 ,是 Hadoop 和 HBase 的 重要 组 件 。 
它 是 一 个 为 分 布 式 应 用 提供 一 致 性 服务 的 软件 ， 提 供 的 功能 包 
括 配置 维护 、 域 名 服务 、 分 布 式 同步 、 组 服务 等 
配置 基线 在 服务 或 服务 组 件 的 生命 周期 中 ， 某 一 时 间 点 被 正式 指定 的 配 


置信 息 


